当机器人不再需要人类手把手教学,而是在虚拟的物理世界中自主进化,一场具身智能的“ImageNet时刻”正在代码中悄然来临。
2026年初,跨维智能做出了一个可能改变行业格局的决定:开源EmbodiChain。
这是全球首个能够完全使用合成数据训练机器人并在真实世界零样本部署的具身智能工具链,意味着一个数据平权的时代正式来临。
开源主页:https://dexforce.com/embodichain/index.html#/
代码仓库: https://github.com/DexForce/EmbodiChain
技术文档: https://dexforce.github.io/EmbodiChain/introduction.html
GS-World Paper: https://www.techrxiv.org/doi/full/10.36227/techrxiv.176153394.41323502
01
具身智能的“ImageNet时刻”?
如果说大语言模型的爆发始于ImageNet等开放数据集的建立,那么EmbodiChain的开源,很可能标志着具身智能领域的“ImageNet时刻”到来。
传统机器人训练面临三重困境:数据稀缺、成本高昂、难以泛化。真实数据采集需要人遥控机器人,耗时耗力且存在安全风险;仿真数据又与真实世界存在“虚实鸿沟”;不同机构的数据格式不一,形成“数据孤岛”。
EmbodiChain的突破在于,不需要原始真机,而是构建了一个完整的“造梦-学习-验证”闭环。
在Real2Sim的第一阶段,系统支持两种数据生成路径:基于语言描述的DexGen和基于动作轨迹的DexDyna。
前者可根据自然语言自动生成仿真场景;后者可将真实操作视频转化为可仿真的动作序列。
随后进入Sim Data Scaling的第二阶段。基于少量“种子”场景,该系统通过生成式仿真技术实现百万级数据扩增。这个过程不仅仅是简单的复制粘贴,而是在任务、资产、场景、技能四个维度进行智能扩展。
最后在Sim2Real(仿真到真实)的第三阶段。训练完成的模型可直接部署到真实机器人,实现零样本迁移。通过大规模域随机化策略,模型学会了聚焦任务本质特征,兼顾纹理、光照等变化。
最具革命性的或许是这套范式下来,机器人可以完全依靠100%合成数据习得技能,并在真实世界完美执行。这打破了仿真数据必须与真实数据混合使用的行业潜规则。
“目前全行业只有我们是完全用100%生成式的多模态数据训出来的具身智能模型。”跨维智能创始人贾奎在采访中表示。
02世界模型之争
从“视频生成”到“物理仿真”
2025年,“世界模型”成为具身智能领域最炙手可热的概念。但当各家都在谈论世界模型时,技术路径已出现明显分野。
一类是基于视频生成的世界模型,如Sora的后续发展。这类模型能生成逼真视频,但缺乏三维结构和物理规律支撑。“生成的视频里没有3D,没有物理,怎么可能学出来?”贾奎质疑道。
另一类是基于3DGS(三维高斯泼溅)的表征,例如前段时间海外某实验室的GSM (Gaussian Splatting Maps for 3D Reconstruction):这类技术适合娱乐应用,但难以实现精准的物理属性仿真。
跨维智能走的是第三条路:基于生成式仿真和GS-World物理模型生成的世界模型,该模型不仅生成视觉场景,更构建严格符合牛顿力学定律的虚拟物理世界。
贾奎将GS-world称为“世界模型2.0”,以区别于视频生成范式。在这个虚拟宇宙中,物体有质量、有摩擦力、会碰撞、会形变,这些物理属性是基于建模而来可计算、可优化的数学参数。可以说EmbodiChain让合成数据完全替代真实数据成为可能,从根本上解决了数据来源问题。
这种差异在商业落地中体现得尤为明显。视频生成的世界模型可能创造出令人惊叹的演示视频,但难以转化为真实的机器人技能;而基于物理仿真的世界模型,则能直接输出可在工厂、仓库、家庭中实际工作的机器人策略。
技术路径的分化反映的是对“智能”本质的不同理解。是将智能视为对视觉模式的识别与生成,还是视为在物理约束下的推理与行动?具身智能的答案显然是后者。
03数据平权
打破巨头垄断的“武器”
当前,高质量机器人数据被少数巨头垄断。这些公司组建庞大的采集团队,在全球范围内收集数据,构建起难以逾越的数据壁垒。初创公司和小型研究机构几乎无法参与竞争。
“如果模型训练最终仍需1%真实数据,就无法判定真实/虚拟数据谁才是起决定作用,就意味着每个新场景都需搭建真实环境采集数据。”贾奎指出,这无法解决高效低成本商业落地的核心问题。
EmbodiChain的开源,本质上是一场数据平权运动。它将曾经只有巨头才能负担的数据生成能力,免费提供给整个行业。任何研究者、任何初创公司,现在都可以基于这套工具链,生成自己的训练数据,训练自己的机器人模型。
这种平权可能重塑行业生态。大公司不再能凭借数据积累建立护城河;小团队也有机会在特定领域实现突破;学术界与工业界的差距可能迅速缩小。
“技术变革来的太快。”贾奎在采访中直言。那些投资于大规模真机数据采集的路线,可能在新范式面前失去优势。
这并非危言耸听。历史上,每次技术范式的转变都会让曾经的投入贬值。当更高效、更廉价的技术出现时,依赖旧技术的资产就会迅速缩水。
04Efficiency Law
机器人领域的新“摩尔定律”
大语言模型的成功遵循Scaling Law(规模定律):模型能力和训练数据规模呈指数关系。但这一规律在机器人领域遭遇挑战,因为物理交互数据的获取成本极高,难以实现互联网规模的数据积累。
跨维智能提出了适用于机器人的新定律:Efficiency Law(效率定律)。
该定律指出,在有限时间内,决定具身模型性能上限的关键变量是高质量数据的生成速率。如果数据生成速率过低,模型将永远无法“吃饱”,再大的参数量也无法带来性能涌现。
图释:Efficiency Law中模型性能与数据生成率的关系
EmbodiChain正是验证Efficiency Law的首个高数据生成速率引擎。它通过GPU并行与Real2Sim技术,最大化数据生成效率,将行业从Data-Driven(数据驱动)推向Engine-Driven(引擎驱动)的新范式。
这种转变的意义不亚于从手工制造到自动化生产的工业革命。传统机器人研发如同手工作坊,依赖工匠经验;而EmbodiChain代表的引擎驱动范式,则如同自动化生产线,可规模化、标准化地产出机器人智能。
“EmbodiChain旨在开启Engine-Driven的新范式。”贾奎对记者提道,“智能体不再是被动学习者,而是置身于一个可生成、可演化的引擎中。”
但在贾奎看来,EmbodiChain也只是起点,而非终点。在跨维智能的蓝图中,它仅仅是GS-World(生成式仿真世界模型)的底座。
GS-World的终极形态是机器人的完整演化场。在这里,不仅是策略在进化,机器人的形态、感知系统、乃至“新陈代谢”(能源系统)都可以在物理引擎中协同演化。
这种愿景令人联想到科幻作品中的场景:机器人在虚拟世界中经历数百万次迭代,自主发现最优设计,然后被“打印”到现实世界。这或许就是硅基生命的进化之路——不是在自然环境中物竞天择,而是在数字宇宙中数学优化。
贾奎预测:“2026年世界模型,尤其是基于三维物理的世界模型会非常火爆。”随着算力增长和算法进步,虚拟世界将越来越逼真,机器人在其中学到的东西将越来越适用于现实。
这场革命的影响可能远超机器人领域本身。当我们可以构建高保真的物理仿真世界,当AI可以在其中自主探索和优化,我们获得的不仅是更好的机器人,更是理解智能本质的新窗口。
或许有一天,人类能够通过观察AI在虚拟世界中的进化,反过来理解自身智能的起源。这不仅是技术的进步,更是认知的飞跃。
05商业落地
从百台出货到行业赋能
技术突破最终要接受市场的检验。跨维智能的人形机器人已实现批量出货,主要应用于商业服务场景,特别是基于上肢操作的吧台服务。
“我们2025年8月份已经开始批量出货,如今超过百台,营收近亿元。”贾奎透露。对于一个相对较晚进入本体制造领域的企业,这一进展值得关注。
但真正具有想象空间的是其赋能行业的潜力。跨维智能不仅销售机器人本体,更提供从数据生成到模型训练的工具链。“我们本质是卖给客户一个能够产生模型的能力。”
这与单纯销售硬件或软件有着本质不同。EmbodiChain提供的是一种元能力,即生成数据、训练模型、部署应用的全栈能力。客户可以用它解决自己的特定问题,而不必依赖跨维智能提供现成解决方案。
这种模式更灵活,也更具扩展性。工业场景需要高成功率,商业场景可能更看重成本,服务场景则需要良好的人机交互体验,而EmbodiChain可以通过调整优化目标,满足不同场景需求。
当然,EmbodiChain的开源不仅仅是代码的公开,更是生态建设的开始。
“我们开源EmbodiChain的初衷,是坚信具身智能的‘ImageNet时刻’不会诞生于封闭的私有模型,而将诞生于一个标准化的、共享的基础设施之上。”贾奎对我们解释道。
这种开放精神在当今的商业环境中尤为难得。在各大科技公司竞相构建封闭生态的今天,跨维智能选择了截然不同的道路——通过开源构建生态,通过生态扩大影响。
随着EmbodiChain的开源,2026年的具身智能战场将不再是简单的数据量比拼,也不再是封闭技术的护城河竞争。这是一场全新的游戏,规则正在被重写,玩家正在重新洗牌。