智驾 “新宠” VLA:是万能钥匙,还是烫手山芋?

在智能驾驶的赛道上,新技术如潮水般不断涌现,而当下,VLA(视觉 – 语言 – 动作大模型)无疑成为了众人瞩目的焦点。有人对其赞不绝口,高呼 “最强解法”,仿佛它是开启智能驾驶终极之门的万能钥匙;然而,也有人对其持保留态度,直言 “跑不动”,认为它在实际落地中困难重重。L3 拐点将至,智能驾驶正走向 VLA 分水岭,原本统一的「智驾第一阵营」也因此分化出两条截然不同的道路。

理想、小鹏、元戎等车企高举 VLA 大旗,将其拼命推向前台,试图借助 VLA 实现智能驾驶的新突破;而华为、Momenta、博世、卓驭等玩家却站在对立面,毫不留情地给 VLA 泼冷水,对其可行性和有效性提出质疑。在这场激烈的争论中,VLA 究竟是智能驾驶的救星,还是只是一场不切实际的幻想?让我们深入探讨,试图还原关于 VLA 的争论焦点。

端到端之困,VLA 能否力挽狂澜?

端到端技术的出现,曾被视为智能驾驶领域的一次重大变革。它改写了底层逻辑,从传统的规则驱动转变为数据驱动,为智能驾驶带来了新的希望。然而,当几乎所有玩家都踏上端到端这艘大船后,却发现它并非一帆风顺,两大缺陷如巨石般横亘在眼前。

传统端到端是一个黑箱,传感器信号如何转化为驾驶动作难以追溯,无法给出清晰的决策逻辑。车辆突然急刹,原因可能是探测到行人,也可能是把阴影误判为障碍物,但系统并不会告诉你 “为什么”。这种不透明性,让用户对智能驾驶的安全性和可靠性产生了深深的担忧。

端到端完全依赖数据驱动,没见过的场景往往就不会处理。在动态突发情况下,如行人突然横穿马路,系统只能依赖过往类似案例被动应对,反应滞后。模型只能识别像素级特征,却无法理解语义级规则,比如红灯等于禁止通行。这使得端到端在复杂多变的现实交通场景中显得力不从心。

尽管端到端可以解决智驾 90% 的难题,但剩下的 10%,却成为了难以跨越的鸿沟。智驾安全显然不能停留在 90% 的基准线,为了向前推进,业内普遍的共识是用规则兜底,在端到端网络之外写入规则代码,教会系统基本的交通法则,保证合理行驶。但兜底更像是最后一道防线,面对错综复杂的极端情况,需要更加 “治本” 的方式。于是,VLA 跃入技术前台。

VLA 最早由谷歌旗下的 DeepMind 提出,其标志性成果为机器人领域的 RT-2 模型,通过整合视觉感知、语言推理和动作控制,首次实现了从图像观察和文本指令到物理动作的端到端控制。理想、元戎启行将其引入智驾领域,目的正是借 VLA 能力突破端到端的瓶颈。

VLA 的关键点在于,在 “VA(视觉 – 动作)模式” 中间加入了 “Language(语言)” 这一关键桥梁。理想智驾负责人郎咸朋强调,“L” 指代语言学习能力,它并不是简单的用语言做显示的文字推理,而是用语言提供的数据学习做隐式的逻辑推理。这就好比人与动物的区别,人的视觉能力、行动速度都不如动物,但凭借强大的认知和理解能力,能够比动物更高一等。

VLA 的核心任务,就是让系统具备长 “思维链”,这落实到性能体验上,会带来三方面提升。

VLA 能实现更全维度的 “路牌” 理解。这里的 “路牌” 不再局限于平面的交通标识,而是扩展到红绿灯变化、交警手势、施工锥桶等动态三维信息。系统能够识别潮汐车道标志,在拥堵路段也能顺畅变道。这种对复杂交通信息的全面理解,将大大提升智能驾驶在复杂路况下的应对能力。

VLA 能带来更自然的语音交互。用户可以直接通过语音控制跟车距离、车速等,还能告知系统驾驶偏好。理想的 “司机 Agent” 甚至能记忆用户习惯,用户曾提示某路段应以特定车速行驶,系统在下次经过时会主动沿用,不用再重复指令,以此实现人车共驾。这将极大提升用户与智能驾驶系统之间的交互体验,让驾驶变得更加轻松和个性化。

VLA 还能实现更前瞻的风险预判。系统不再是遇到风险才被动响应,而是能通过视觉识别、语言推理提前感知潜在危险。看到前方路面有积水痕迹,会预判 “可能存在涉水风险” 并主动减速等。这种主动式的风险预判,将为智能驾驶的安全性提供更有力的保障。

VLA 玩家们都相信,VLA 是端到端的 2.0 形态。端到端像猴子开车,会模仿人类动作,却缺乏对物理世界的理解;而 VLA 则像司机,甚至教练开车,既能理解规则,又能推理和灵活决策,从 “学行为” 进化为 “懂意图”。然而,现在的 VLA 优势还并不明显。郎咸朋强调,当前智驾任务还比较简单,在 L3、L4 阶段,智驾作为 Agent 要独立完成复杂任务时,VLA 才会获得碾压性胜利。但也正因如此,在 “VLA 是否为行业终局答案” 这一问题上,始终得打个问号。

VLA 遭受多重质疑,落地之路荆棘丛生

当理想、元戎启行高举 VLA 大旗时,迎接它的并非如 “端到端” 一般的技术光环,而是多重质疑,这场由 VLA 引发的舆论漩涡,层层叠叠。

第一层是真假 VLA 之辩。小鹏在这场争论中扮演了一个微妙的角色。早期,小鹏并未高调举起 VLA 大旗,其 VLA 玩家的身份还是元戎启行翻开的。此前元戎启行创始人周光表示,任何投入大算力、大参数模型研发的玩家,都大概率是 VLA 路线的潜在参与者,这一说法指向了小鹏。直到小鹏 G7 Ultra 发布会上,小鹏才明确表态,基于 3 颗图灵芯片与双激光雷达,小鹏 G7 Ultra 支持全场景 VLA,包括复杂路口决策、无车位泊车等功能,并在人机共驾模式下可以实现协同控制。

然而,尽管隶属于 VLA 阵营,但小鹏却把矛头对准了 “队友”。何小鹏声称,“只有我们做成了真正的 VLA,部分公司做成的是一个嫁接的 VLA。” 他对此解释为,VLA 的落地需要数十亿资金投入。相比端到端,VLA 要处理的是更高维度、非结构化的多模态信息,再将其转化为驾驶动作决策,复杂度指数级提升。用几个亿只能堆出一个 “微型 VLA”,本质上仍停留在端到端逻辑。这一观点暗示,VLA 玩家都必须是资源禀赋型选手,需要强大的技术实力,更需要大量资金作为支撑。某种程度上,小鹏用 “纯血 VLA” 的角度,揭开了 VLA 水面之下的暗角。

第二层质疑来自 VLA 的落地挑战。博世智能驾控中国区总裁吴永桥解释得很清楚,即 VLA 落地需面临三大障碍:多模态大模型的特征对齐存在挑战;多模态的数据获取和训练十分困难;当前所有的智驾芯片实际都不支持 VLA 模型。尤其是第三点,吴永桥举例,VLA 理想化部署需达到 7B-10B 参数规模,但现有智驾芯片带宽有限。即便是一个 3B 模型,部署在英伟达 Thor 芯片上,频率也难以稳定维持在 10Hz。10Hz 意味着系统每秒仅能完成 10 次感知与决策,放在驾驶场景中,就像一个 “时常卡帧的机器人”。即使决策逻辑正确,但因为带宽不足、反应滞后,行车过程中仍会频繁出现延迟和卡顿,无法带来流畅、可靠的驾驶体验。吴永桥并不否认 VLA 是个好方向,包括卓驭副总裁马陆也认同 VLA 可以走通,但难度很大。马陆强调,VLA 中的 “L” 并不是简单的语言大模型,不可能直接套用类似 “通义千问” 这样的现成模型,而是要从头开始,练成一个理解智能驾驶的司机大模型,它需要完整理解物理世界的真实尺度,这需要资源,也需要时间。种种论断都构成一个基本事实:实现 VLA 并不容易。

在此基础上,Momenta 与华为对这一技术路径的审视已经来到第三层,即 VLA 对于智驾的真伪性。关于智驾是否有必要走 VLA 这条路,双方都予以否定。在 Momenta 创始人曹旭东眼里,VLA 只能算是锦上添花,还不足以扛起 L4、L5 的大任。最直接一点,VLA 对于安全性的提升或许能达到 5-10 倍,但 L4 规模化落地需要的是 100-1000 倍安全提升,显然杯水车薪。华为则坚定认为,VLA 这一从机器人领域引入的技术路径,并不是为智驾而生。并且,由于 VLA 在空间感知与推理能力上存在天然短板,语言模型与动作决策本就难以对齐。简单而言,VLA 更像是一个伪命题。相较之下,华为已经找到了新解法,在华为乾崑 ADS 4 上,打造出 WEWA 世界模型架构,通过端云结合的系统训练,行为模型可以直接控制车辆,时延更低。华为认为,世界模型才是通往智驾终局的正确路径。

从小鹏、博世、卓驭再到 Momenta、华为,关于 VLA 的争论,其实反映出各家差异化的技术逻辑。在技术发展的道路上,路径选择无关对错,更多关乎企业自身的资源博弈与战略眼光。

技术路径的博弈,谁能笑到最后?

过去一年,端到端热潮无疑让智能驾驶的步子迈得更大,尤其是 “车位到车位” 的功能落地,不仅重新划分了 “第一梯队” 的入场标准,也让用户清晰感知到智驾进步带来的先进体验。然而,“车位到车位” 之后,整个智驾行业进入了 “功能停滞” 的瓶颈期。

监管给激进的智驾宣传按下了暂停键。从四月份开始,工信部、市场监管总局出台《关于进一步加强智能网联汽车产品准入、召回及软件在线升级管理的通知》等系列新规,对 “自动驾驶”“高阶智驾” 等用语予以禁止,把智驾安全提到绝对优先层面,并规定车企每一次 OTA 更新,都需经过备案才能上线。这一系列举措旨在规范行业发展,确保智能驾驶的安全性,但也在一定程度上限制了企业的创新步伐。

L3 级智能驾驶政策还未放开,各车企、供应商只能停留在智驾体验优化层面,给 L2 后缀继续添加 “+”,用户能感知到的 “利己效益” 并不明显。这也是 Momenta、卓驭等玩家目前并不看好 VLA 的主要原因,VLA 的确能在用户体验上 “整花活”,比如语音控车、人机共驾,但大概率不能给智驾带来成倍级的体验革命。

站在 L2 + 的起点上,智驾行业每向前走一步,都会面临更棘手的难题。越是到攻坚期,选择哪条路就越发重要,毕竟,任何一条技术路线背后,都是对算力、数据的巨额消耗。这也意味着,大家更愿意把鸡蛋放进最近的篮子里。

一方面,押注确定性成为主流选择。几乎所有玩家都坚定选择了强化学习、世界模型的技术路径,VLA 本质上与这两者也并不冲突。在理想关于 VLA 的规划版图中,第四阶段就是基于世界模型进行强化训练,将系统打造成职业司机。这种对确定性技术路径的选择,体现了企业在技术发展过程中的稳健态度,希望通过现有的成熟技术,逐步实现智能驾驶的升级。

另一方面,降低不确定性也是企业考量的重点。智能驾驶的下半场,将是一场拼资金、拼技术、拼成本的拉锯战。从有图,到无图,再到端到端路线,大家都是稳扎稳打走向下一阶段,基于各自既定的技术价值观,复用已有的数据和算法积累,确定下一步落子位置。这种策略有助于企业在有限的资源条件下,降低技术研发的风险,提高成功的概率。

目前位列智驾第一梯队的玩家们,打法各异。理想、元戎启行、小鹏选择押注 VLA,强调高投入、算力密集型路线,追求 VLA 大模型的上限。三家也的确通过资源配置为 VLA 铺路。小鹏通过自研图灵芯片,算力超过 750TOPS,并打造出 72B 参数的基座大模型,为 VLA 大模型提供充裕算力支持;元戎启行早期就研究 GPT 大语言模型,探索 VLA 方向,并聚焦英伟达 Thor 芯片的上车应用;理想在端到端时期就乘上了 “端到端 + VLM” 的列车,朝向 VLA 的方向。理想、小鹏都有自研人形机器人计划,而 VLA 在具身智能与智能驾驶的通用性,也指向了二者对于 VLA 的长远战略布局。

未选择 VLA 路线的玩家们也是基于自身技术价值观,锚定最优解。华为、地平线强调结构性解法,走体系化路线。华为凭借云端算力和 AI 大模型基础,构建出 WEWA 世界模型,主打 “无弱点” 的原生架构;地平线基于自研高性能计算平台征程 6P,强调软硬一体优势,打造出 “中国版 FSD”。博世主打工程化落地能力,依托全产业链协同与车规级品控经验,继续强化一段式端到端,强调快速量产能力;卓驭则是 “性价比” 标签,聚焦主流车型需求,通过精简传感器配置与算法轻量化优化,打造高适配性的入门级方案。Momenta 继续强调数据飞轮,强调商业可扩展性、成本可控。在 “飞轮模式” 驱动下,Momenta 将通过强化学习打造出新一代 R6 飞轮大模型。

在技术演进的道路上,每一项决策,都是取自于边际成本与边际效益的最优计算结果。智驾行业上一次这么热闹,还是为 “纯视觉还是激光雷达路线” 争论不休,而争论归于平静后,大家得到的共识是,纯视觉也好,激光雷达也罢,只要能保证丝滑、可靠的智能驾驶,都是可行路线。VLA 之争同理,具体用哪种技术路径,本就不是行业该纠结的落脚点。用户在真实道路上能否感受到更平顺的行驶质感、更可靠的安全保障,远比选择哪种大模型更重要。今天,能把智驾体验做到极致的玩家,才有机会在 L3 起跑时真正领先。

智能驾驶早已过了 “抄作业” 的时代,没有所谓的标准答案,大家都是在摸着石头过河。智驾当下比拼的,已经不是单纯的技术路径分野,而是技术路径选择背后,一场对于资源分配的策略和定力,比的是技术价值观。就像理想和元戎坚信,VLA 尽管进展慢,但上限一定会比端到端更高。大家都在押注长期主义,但谁的长期主义会先显验,还要时间给出答案。在这场没有硝烟的战争中,唯有不断创新、勇于探索,以用户需求为导向,才能在智能驾驶的赛道上脱颖而出,驶向未来出行的美好愿景。

为您推荐