创始人

2025-09-18 13:01:13

0次

【导语：2025年智能驾驶领域迎来VLA技术集中爆发，一年前“端到端”还是万能解法，一年后却被打上“落后技术”的标签。加之VLA、WA等新词主要集中在新势力圈层内，这不禁让我们思考，VLA真的能带来领先“端到端”数倍的使用体验吗，还是新势力们又一个科技营销故事？】

撰文|蔡家伦、编辑|禾子

无论是VLA还是WA都属于端到端的范畴，两者是端到端智驾进入下一个阶段的技术分支，并非新鲜玩意。

具体到技术定义，VLA是由V（Vision视觉）、L（Language语言），A（Action行动）三个能力组合而成。理想作为国内少数已经落地VLA的车企，理想对VLA的定义是：有思维能力，有沟通能力，有记忆能力，有自主学习能力。

为何衍生出VLA技术路线

端到端为什么会进一步衍生出VLA技术路线。主要原因在于，在VLA之前，行业普遍追逐和使用技术模型，主要分为模块化端到端和一段式端到端，这两种技术模型有个很大的弊端，即为“黑箱特性”，即端到端大模型决策过程缺乏可解释性，对极端场景容易出现不可预测行为。

模块化端到端：保留了人工设计的模块接口，人工能够单独补充和优化各个模块的数据/传输性能，然而在信息传递中会有一定损耗，所以实际是一种“伪端到端”。

一段式端到端：直接将传感器获取的数据映射为控制指令执行，减少信息传递的损耗，是真正的端到端，例如特斯拉FSDV12便是典型的一段式端到端。

VLA对比传统端到端，核心突破在于引入“思维链”，传统端到端只有“观察+行动”两个动作，而VLA由于加入Language语言模型，让决策推理可以被解释，让整套智驾逻辑更像人类“观察+思考+行动”的推理过程。

例如在缺乏红绿灯的环岛场景，VLA能生成多个步骤规划，而不是简单根据地图，传感器进行判断；在潮汐车道，VLA能结合视觉信号与文本指令判断车道的用通过性。

相比传统端到端（VLM）仅能输出单步控制指令，VLA这种“多模态深度融合”的能力，在长尾场景中，能够展现更强的泛化能力。

因此，我们可以理解为，VLA就是为了解决端到端“黑箱特性+极端场景”而诞生的大模型，是端到端的“智能增强版”，用来填补端到端难以完成的剩下10%场景。

当然，正如上文所诉，传统端到端的优化路径并不只有VLA，以华为，蔚来为代表的车企则给出WA（世界模型）的技术路线。

相较VLA“观察+思考+行动”技术路线，WA是直接通过Vision（视觉）信息的输入实现控车，无需将各种信息转为Language（语言），在通过语言模型来控制。

华为自研WEWA架构之所以能够跳过“Language”，关键在于云端WE和车端WA的配合工作。云端WE是在智驾系统的云端大脑里搭建“虚拟沙盘”，负责在虚拟世界不断学习和淬炼驾驶数据，车端WA则将云端学到的驾驶数据高效落地的真实道路。

并且在华为车BU CEO靳玉志看来，VLA是在LM（语言模型）相对成熟的背景下，将视频转化为语言进行训练，再通过执行模块控制车辆的行为，看似取巧实则不是自动驾驶的终极方案。

当然，由于目前VLA和WA尚未完全落地，技术主要集中在高端车型上优先使用，因此我们今天尚且先不讨论，这两种技术路线到底谁能成为最后的赢家。

毕竟无论是VLA还是WA，本质都需要数据、算法、算力和工程四个方面要素的共同配合。

以WA世界模型为例，尽管世界模型对长尾数据量没有太多要求，但既然依靠云端生成数据进行训练，那么对云端算力、工程和数据质量就有很大要求，如果世界模型数据描述偏差过大，那么在执行层面同样会带来糟糕的体验。

因此，与其过度争论VLA和WA孰好孰坏，技术逻辑，我们不妨将角度回到技术落地和用户感知层面。

黑猫白猫，抓到老鼠就是好猫

技术落地层面，目前华为乾崑智驾 ADS 4已经融合WEWA世界模型，蔚来世界模型 NWM也在今年5月份开始陆续推送。显然，世界模型作为数据驱动，云端AI训练为核心逻辑的技术路线，技术越早落地，云端“AI驾校”就越强大。

值得一提的是，尽管目前华为，蔚来的世界模型已经落地，但想要将世界模型的功能发挥到极致，一方面取决于数据根基，另一方面则来自云端AI芯片的算力。数据驱动和AI芯片算力，但凡一方缺席，AI驾校的学习速度和训练精度就会受到严重的影响。因此，世界模型赛道的高门槛，注定成为少数企业的专属玩法。

至于VLA，在智驾板块拥有自研能力的车企，诸如吉利、长城、奇瑞，零跑等均在全力推进VLA模型的研究和落地。

尽管，理想和小鹏成为率先实现技术落地的头批玩家，但从行业发展时间点来看，VLA想要实现大规模落地并且发挥最大效能，仍需要3-5年等待适配大模型的芯片出现。

主要原因在于，VLA想要实现行车安全以及驾驶高度拟人化，模型不仅要部署在智驾芯片上，而且模型规模必须要做到7B-10B左右，目前市面上的三方智驾芯片，带宽相对较小，几乎都不是专为大模型计算而设计，如果将模型缩水布置在Thor芯片上，刷新频率则难以保持稳定。

在用户感知层面，以理想i8为例，大部分用户对该车的印象更多停留在“碰撞测试”“强化彩电冰箱大沙发属性”，而对于VLA，用户反而难以理解价值和拥有明确的感知，或者是觉得VLA很强大，但真要掏钱的时候，反而会变得犹豫。

因此，当硬件和用户思维跟不上车企节奏时，对于现阶段想要冲击VLA的车企而言，更重要是深耕内功“强化学习+端到端场景”，而非放大营销声音。Momenta创始人曹旭东也曾表态“VLA是好方向，但只是锦上添花。”

点评

VLA确实为更高阶的智能驾驶辅助“拟人化”提供了可能性，但当现有理论架构已经远超实际大规模落地的可能性时，用更多精力巩固、优化现阶段成功，才是行业平稳发展的重中之重。

（本文系《禾颜阅车》原创，未经授权，不得转载）