VLA技术喧嚣的背后,实用价值的冷思考
创始人
2025-09-18 13:01:13
0

【导语:2025年智能驾驶领域迎来VLA技术集中爆发,一年前“端到端”还是万能解法,一年后却被打上“落后技术”的标签。加之VLA、WA等新词主要集中在新势力圈层内,这不禁让我们思考,VLA真的能带来领先“端到端”数倍的使用体验吗,还是新势力们又一个科技营销故事?】

撰文|蔡家伦、编辑|禾 子

无论是VLA还是WA都属于端到端的范畴,两者是端到端智驾进入下一个阶段的技术分支,并非新鲜玩意。

具体到技术定义,VLA是由V(Vision视觉)、L(Language语言),A(Action行动)三个能力组合而成。理想作为国内少数已经落地VLA的车企,理想对VLA的定义是:有思维能力,有沟通能力,有记忆能力,有自主学习能力。

为何衍生出VLA技术路线

端到端为什么会进一步衍生出VLA技术路线。主要原因在于,在VLA之前,行业普遍追逐和使用技术模型,主要分为模块化端到端和一段式端到端,这两种技术模型有个很大的弊端,即为“黑箱特性”,即端到端大模型决策过程缺乏可解释性,对极端场景容易出现不可预测行为。

模块化端到端:保留了人工设计的模块接口,人工能够单独补充和优化各个模块的数据/传输性能,然而在信息传递中会有一定损耗,所以实际是一种“伪端到端”。

一段式端到端:直接将传感器获取的数据映射为控制指令执行,减少信息传递的损耗,是真正的端到端,例如特斯拉FSDV12便是典型的一段式端到端。

VLA对比传统端到端,核心突破在于引入“思维链”,传统端到端只有“观察+行动”两个动作,而VLA由于加入Language语言模型,让决策推理可以被解释,让整套智驾逻辑更像人类“观察+思考+行动”的推理过程。

例如在缺乏红绿灯的环岛场景,VLA能生成多个步骤规划,而不是简单根据地图,传感器进行判断;在潮汐车道,VLA能结合视觉信号与文本指令判断车道的用通过性。

相比传统端到端(VLM)仅能输出单步控制指令,VLA这种“多模态深度融合”的能力,在长尾场景中,能够展现更强的泛化能力。

因此,我们可以理解为,VLA就是为了解决端到端“黑箱特性+极端场景”而诞生的大模型,是端到端的“智能增强版”,用来填补端到端难以完成的剩下10%场景。

当然,正如上文所诉,传统端到端的优化路径并不只有VLA,以华为,蔚来为代表的车企则给出WA(世界模型)的技术路线。

相较VLA“观察+思考+行动”技术路线,WA是直接通过Vision(视觉)信息的输入实现控车,无需将各种信息转为Language(语言),在通过语言模型来控制。

华为自研WEWA架构之所以能够跳过“Language”,关键在于云端WE和车端WA的配合工作。云端WE是在智驾系统的云端大脑里搭建“虚拟沙盘”,负责在虚拟世界不断学习和淬炼驾驶数据,车端WA则将云端学到的驾驶数据高效落地的真实道路。

并且在华为车BU CEO靳玉志看来,VLA是在LM(语言模型)相对成熟的背景下,将视频转化为语言进行训练,再通过执行模块控制车辆的行为,看似取巧实则不是自动驾驶的终极方案。

当然,由于目前VLA和WA尚未完全落地,技术主要集中在高端车型上优先使用,因此我们今天尚且先不讨论,这两种技术路线到底谁能成为最后的赢家。

毕竟无论是VLA还是WA,本质都需要数据、算法、算力和工程四个方面要素的共同配合。

以WA世界模型为例,尽管世界模型对长尾数据量没有太多要求,但既然依靠云端生成数据进行训练,那么对云端算力、工程和数据质量就有很大要求,如果世界模型数据描述偏差过大,那么在执行层面同样会带来糟糕的体验。

因此,与其过度争论VLA和WA孰好孰坏,技术逻辑,我们不妨将角度回到技术落地和用户感知层面。

黑猫白猫,抓到老鼠就是好猫

技术落地层面,目前华为乾崑智驾 ADS 4已经融合WEWA世界模型,蔚来世界模型 NWM也在今年5月份开始陆续推送。显然,世界模型作为数据驱动,云端AI训练为核心逻辑的技术路线,技术越早落地,云端“AI驾校”就越强大。

值得一提的是,尽管目前华为,蔚来的世界模型已经落地,但想要将世界模型的功能发挥到极致,一方面取决于数据根基,另一方面则来自云端AI芯片的算力。数据驱动和AI芯片算力,但凡一方缺席,AI驾校的学习速度和训练精度就会受到严重的影响。因此,世界模型赛道的高门槛,注定成为少数企业的专属玩法。

至于VLA,在智驾板块拥有自研能力的车企,诸如吉利、长城、奇瑞,零跑等均在全力推进VLA模型的研究和落地。

尽管,理想和小鹏成为率先实现技术落地的头批玩家,但从行业发展时间点来看,VLA想要实现大规模落地并且发挥最大效能,仍需要3-5年等待适配大模型的芯片出现。

主要原因在于,VLA想要实现行车安全以及驾驶高度拟人化,模型不仅要部署在智驾芯片上,而且模型规模必须要做到7B-10B左右,目前市面上的三方智驾芯片,带宽相对较小,几乎都不是专为大模型计算而设计,如果将模型缩水布置在Thor芯片上,刷新频率则难以保持稳定。

在用户感知层面,以理想i8为例,大部分用户对该车的印象更多停留在“碰撞测试”“强化彩电冰箱大沙发属性”,而对于VLA,用户反而难以理解价值和拥有明确的感知,或者是觉得VLA很强大,但真要掏钱的时候,反而会变得犹豫。

因此,当硬件和用户思维跟不上车企节奏时,对于现阶段想要冲击VLA的车企而言,更重要是深耕内功“强化学习+端到端场景”,而非放大营销声音。Momenta创始人曹旭东也曾表态“VLA是好方向,但只是锦上添花。”

点评

VLA确实为更高阶的智能驾驶辅助“拟人化”提供了可能性,但当现有理论架构已经远超实际大规模落地的可能性时,用更多精力巩固、优化现阶段成功,才是行业平稳发展的重中之重。

(本文系《禾颜阅车》原创,未经授权,不得转载)

相关内容

热门资讯

魅族输掉市场确实是事实,但给所... 要说清楚魅族,必须要认识黄章,这哥们儿不是传统意义上的CEO,是个把"工匠精神"刻进DNA的产品经理...
技术进步给就业领域带来哪些影响... 以往历次工业革命主要以物质设备和信息替代体力和部分脑力劳动,技术进步集中于生产工具、能源利用、信息资...
小型河道水质监测站(太阳能供电... 水利工程研究人员指出小型河道是水环境治理的重要组成部分,其分布散、周边基建薄弱的特点让传统站房式水质...
江丰电子获“国家卓越级智能工厂... 本报讯 (记者吴奕萱)2月27日,宁波江丰电子材料股份有限公司(以下简称“江丰电子”)微信公众号发布...
日禺光学取得激光光束质量检测分... 国家知识产权局信息显示,日禺光学科技(苏州)有限公司取得一项名为“一种激光光束质量检测分析平台”的专...
白炭黑疏水值理解疏水性与应用领... 白炭黑疏水值是指白炭黑作为一种材料表面与水相互作用的能力以及疏水性的程度。疏水性是表面特性的一种重要...
联发科豪掷约9000万美元入股... IT之家 2 月 28 日消息,科技媒体 Wccftech 昨日(2 月 27 日)发布博文,报道称...
【科言科语】基站也会“摸鱼”?... 深夜城市入眠,5G基站仍持续运转耗电,大量“守候式”能耗造成浪费。一场由核心网统筹的节能革命,让基站...
白炭黑疏水修饰革命性的材料在表... 引言 白炭黑疏水修饰是一种革命性的表面改性方法,可在各种应用中发挥重要作用。这项技术以其可靠性、可控...
苹果和安卓手机上3款神级提醒工... 随着现代生活与工作节奏的加快,很多人都难以准时记住太多的任务事项,经常忘事,这时候一款好用的提醒工具...