具身智能的PyTorch时刻,还需要哪些“原力”?
创始人
2026-02-10 20:20:37
0

过去两年,具身智能几乎成了全球机器人领域最不缺讨论、却最难落地的方向。

在北美,Embodied AI被频繁写进通往AGI的路线图;在欧洲,实验室里的机器人已经能完成越来越复杂的多步操作;而在中国,从大厂到创业公司,几乎所有与智能有关的发布里都开始出现“embodied”“VLA”“世界模型”等关键词。

IDC预测,2026年的全球人形机器人市场将翻倍,中国具身智能支出规模或将超过110亿美元,从千台级向万台级跃迁。

2026春节前夕已经传出多家具身智能企业的机器人将集体上春晚斗舞的消息。

看上去,一切都在加速。但一个略显尴尬的现实是,热度虽高,真正能稳定跑在真实场景里的系统却寥寥无几,大多数方案仍是在通用大模型上拼凑感知、控制和执行模块。

行业逐渐意识到,研发新技术并不意味着真实的量产能力,具身智能的瓶颈正从算力Infra转向算法Infra,也就是支撑开发、验证和持续迭代的底层工具链。有没有好用的开发框架?有没有统一的评测标准?模型能不能在真实环境中越用越聪明?

换句话说,具身智能要走向大规模部署,需要的不是更多单点技术,而是一套原生的、端到端的系统。

那么,这套系统应该如何构建?实验室到量产之间还有哪些鸿沟需要跨越?

在刚刚结束的Dexmal Open Day 2026上,原力灵机发布的系列产品给出了一些不同的答案。

明明技术和发布会层出不穷,大规模部署却迟迟难以落地,具身智能究竟被困在了哪里?

如果回顾过去两年具身智能的技术脉络,会发现几乎所有玩家都走上了同一条路——拼凑主义。

简单来说,拼凑主义就是从大模型出发,引入视觉、语言,再试图通过动作头或策略网络,把智能延伸到物理世界。这种方式能让机器人快速学会看图说话,却难以让它进行常识推理。一旦现场环境发生变化,或遇到训练数据中未覆盖的长尾场景,系统就会失效。

模型技术之外,另一个阻碍行业爆发的顽疾是行业碎片化。现在具身智能的开发就像是在原始森林里开路,各家的感知、规划和控制模块深度绑定。如果想给机器人换一个更好的视觉方案,就需要把整套控制逻辑重写一遍。极高的重复造轮子成本让很多初创团队还没走到交付阶段就耗尽了资源。在这个节点上,开发者们真正渴望的,其实是一个像PyTorch那样统一、开放且解耦的开发底座。

除了技术和开发工具,目前行业还缺乏一套能够将技术转化为经济价值的衡量标准。目前主流的具身智能公司都无法回答客户最关心的指标问题。而缺乏指标,自然难有客户愿意为大规模量产买单。

正因如此,行业逐渐意识到:具身智能不能被视为大模型的下游应用,而必须是一套具备原生技术、开发工具和商业评估标准的面向物理世界的系统工程。

面对碎片化的难题,谁能给出新解法?

一个值得注意的变化是,在这轮具身智能讨论中,中国团队的身影愈发清晰。

早期,中国公司更多被视为快速部署和落地的代表,而具身智能的底层范式往往由海外实验室主导。但在最近一两年,这种分工正在被打破。

从跨机型VLA训练到真机评测基准、再到开源框架和数据标准,越来越多中国团队开始直接参与到方法论层的构建。

但这些构建大多还停留在争论用哪个大模型改,那么能不能直接跳出这个问题,从第一行代码就直接为机器人而写呢?

在刚刚结束的 Dexmal Open Day 2026 上,这个问题已经有了一些新的思考。

Dexmal Open Day2026 是原力灵机成立之后首次面向行业专家、技术开发者、媒体等举行的技术开放日。

开放日上,原力灵机给出的答案可以概括为一个关键点——以infra为底座构建具身原生。该系统以DM0为原生智能内核,以Dexbotic 2.0为算法开发Infra,以RoboChallenge为评测Infra,再以DFOL为持续进化引擎,四者共同构成一套自洽、可扩展、可进化的具身智能基础设施体系。

这一思路最直接的体现是其具身原生大模型DM0。与行业中常见的单任务训练方式不同,DM0是从0开始训练的具身原生大模型。其在预训练阶段就引入多任务、跨机型的混合训练,覆盖抓取、导航、全身控制等核心能力,并横跨8种结构差异显著的机器人本体。例如,在A平台上学会处理易碎品的经验,能够有效迁移到B平台处理类似物体,无需重新标注海量数据。

有意思的是,DM0只有2.4 B参数,却在真机测评里拿了单任务和多任务双项第一。为什么?关键在于它用了一种叫空间推理思维链(Spatial CoT) 的方式来思考。

举个例子,“把桌上的商品扫个码计价”这句话其实很模糊,桌上可能有好几个商品,有的被遮挡,有的反光,扫码枪的角度也得对。DM0能够像人一样一步步拆解:先看清楚有哪些东西,判断哪个是目标商品,再想“我该从哪边靠近?手怎么动才能稳稳拿起它并转到扫码位置?”接着生成一条平滑的视觉轨迹,最后转换成机械臂能执行的三维动作。正因如此,它不仅能完成特定任务,还能内化物理常识,具备更强的泛化能力和鲁棒性。

目前,DM0 2.4B版本代码、模型已分别在GitHub、Hugging Face开源,模型测试任务RoboChallenge Table30的全部30个任务的参数和推理代码也同步开源。

如果说DM0解决的是底层技术,Dexbotic 2.0解决的就是如何让能力被复用。

作为全球首个具身原生开发框架,Dexbotic 2.0的出现某种程度上解决了开发碎片化的难题。过去,感知、规划与控制模块往往深度耦合,换一个视觉模型可能就得重写整套控制逻辑。而Dexbotic 2.0通过模块化设计,将整个系统清晰拆解为三大可插拔组件:V(Vision Encoder)、L(LLM )和A(Action Expert),实现真正的解耦。

在此基础上,它还统一了数据格式、训练流程和评测标准。无论是模仿学习还是强化学习,都能在同一个框架内高效协同,仿真训练的结果也能无缝迁移到真机部署。这种端到端打通的思路显著降低了具身智能系统的工程复杂度。

但研发与开发之后,什么能让具身智能真正被大规模复制、走向实际生产生活场景?

真正将这一切推向商业语境的是具身原生应用量产工作流DFOL(Distributed Field Online Learning)。传统模式中,真实场景只是模型的考场,系统部署后,表现好就留下,表现差就退货。DFOL构建了一个“云端-现场”协同的持续学习闭环,将成功率、动作精度、节拍(吞吐效率)等工业客户最关心的指标直接嵌入学习目标中。

这样一来,具身智能不再是交付即终结的一次性产品,而变成一种可进化、可度量、可解锁具身应用量产工作流。客户按效果付费,厂商通过数据飞轮持续优化体验,形成正向商业循环。

当然,要让这一模式被广泛采纳,还需要行业共识。原力灵机联合Hugging Face共同发起RoboChallenge,旨在建立全球首个聚焦真机性能的大规模评测平台。未来,各家公司不再自说自话,而是用同一套标准衡量成功率、精度与节拍,推动行业透明化与良性竞争。

这样一来,从模型、研发到商业化、评测,具身智能就有了自己的一套原生系统。

站在今天回看具身智能,竞争焦点已经发生了变化。

具身智能的上半场,拼的是单点突破,语言理解、视觉识别、运动控制轮番登场,每一项技术进步都足以掀起一轮融资热潮。

但热潮褪去,客户开始更加关注技术落地能力和算法层面的开发框架。

在下半场,具身智能不再比谁的单项技术最亮眼,而是比谁拥有更强的系统能力、谁有更强的开发基础设施。所谓系统能力,不是模块的简单堆砌,而是感知、决策、执行、反馈各环节能否在真实物理世界中形成高效、鲁棒、可进化的闭环。

2026年不是具身智能的元年,而是具身原生的元年。

所谓具身原生,意味着不再将通用AI“外挂”到机器人上,而是从第一行代码起,就让智能在物理交互中生长,理解重力、摩擦、碰撞,适应光照变化、物料变异与环境扰动。

在这一意义上,原力灵机的技术产品矩阵提供了一条值得被认真审视的样本路径:用具身原生大模型弥合语义与动作的鸿沟,用开源框架降低创新门槛,再通过DFOL这样的闭环机制,将工业客户关心的成功率、精度与节拍直接转化为可优化的学习目标。而RoboChallenge作为真机评测Infra,用统一标准衡量实效,确保所有技术进步可验证、可比较、可对齐商业需求。

历史经验表明,真正的技术革命往往始于Infra的成熟。深度学习因PyTorch而爆发,自动驾驶因CARLA而加速。如今,具身智能正站在自己的Infra拐点上。得Infra者,得天下。谁构建了更开放、更高效、更贴近物理世界的基础设施,谁就掌握了定义下一代智能体的能力。

而这,或许正是克服具身智能“最后一公里”难题的关键解法。

相关内容

热门资讯

春节AI企业红包大战再扩容 字... 本报记者 梁傲男 2月10日,字节跳动旗下AI应用豆包宣布,正式开启“豆包过年”新春活动,加入春节A...
未经授权的AI拜年视频走红网络... 临近春节,短视频平台上掀起一种别样的“拜年方式”。您可能也刷到过:熟悉的影视巨星、体坛健将、商界名人...
5000万元 这家创业公司研发... 本报记者 李家鼎 天津市东丽经开区,天津易科奇通信技术有限公司的研发实验室里,公司总经理柳斯白正紧盯...
与华罗庚、陈省身齐名的数学家—... 樊畿是与华罗庚、陈省身齐名的20世纪伟大的华人数学家之一,从线性分析到非线性分析,从有限维空间到无限...
具身智能的PyTorch时刻,... 过去两年,具身智能几乎成了全球机器人领域最不缺讨论、却最难落地的方向。 在北美,Embodied A...
恒源煤电获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示恒源煤电(600971)新获得一项实用新型专利授权,专利名为“...
原创 从... 当云计算从基础设施的托管者蜕变为业务创新的协作者,当生成式AI从技术概念落地为可衡量的商业价值,中国...
字节Seedance2.0小范... 2月10日,观察者网从字节跳动方面获悉,其最新视频生成模型Seedance 2.0日前在即梦、豆包、...
全国最大华为智能生活馆在古城启... 为积极响应党中央、国务院关于坚定实施扩大内需战略的决策部署,主动落实江苏省、苏州市关于大力提振消费的...
2.8寸智能串口屏:一款为智能... 在物联网与嵌入式设备飞速发展的今天,一款性能稳定、接口丰富、易于开发的显示模块成为众多项目的关键。串...