AIPress.com.cn报道
1月6日消息,智元具身研究中心正式发布了一套全新的在线后训练系统SOP(Scalable Online Post-training),旨在让机器人在大规模真实部署过程中不断学习、优化与进化。
传统机器人学习主要依赖预训练模型和离线数据,这在仿真环境或封闭实验室中已取得初步成果。但一旦进入真实环境,离线训练的边际效益迅速递减,模型表现出对特定任务的过拟合、对新场景的泛化不足等问题。学界和产业界普遍认为,解决这一难题的关键在于打破训练与部署之间的壁垒,让机器人在运行过程中持续积累经验、进行在线调整。
智元提出的 SOP 系统正是顺应这一趋势而生。它通过在线学习、分布式架构与多任务能力的结合,让多个机器人在不同环境中同步执行任务,将各自的交互数据及时上传至云端学习系统,再将更新后的模型参数实时推送回各机器人,实现真正意义上的“部署即进化”。这种从离线、串行学习向在线、并行学习的转变,使机器人集群能够更高效地探索现实世界的复杂状态空间,提升整体策略的泛化能力。
在实验评估中,SOP 对已有视觉-语言-动作(VLA)预训练模型的表现提升显著。在多任务场景测试中,结合 SOP 的后训练策略在复杂任务成功率上实现了大幅增长,在商超场景等真实环境下表现出更稳定的策略执行能力。
此外,在线经验学习不仅提高了失败恢复能力,而且显著提升了任务吞吐量和操作稳定性。这些结果表明,即便是真实世界中多变的环境,机器人也能通过持续学习保持策略优良。
另一项重要实验结果显示,在总训练时间相同的情况下,多机器人并行采集数据的学习效率远超单机训练模式。这意味着 SOP 不仅提升了单体策略的质量,还能在训练速度上实现倍增效应,使学习过程更快、更稳健。
在预训练规模与 SOP 效果的关系测试中,结果也显示,尽管预训练数据量对模型基础能力有显著贡献,SOP 在后续在线经验学习阶段对性能提升的边际价值更为明显。这一结果与业界对“真实世界数据驱动学习”趋势的判断相契合:离线大规模预训练为机器人提供基础理解能力,而在线后训练则能突破静态模型的局限,使机器人更好地应对动态变化场景。
值得注意的是,在当前机器人研究和产业实践中,类似的在线学习和真实世界部署探索正在加速推进。比如在具身智能和大模型融合方向,研究者提出了更为复杂的视觉-语言-动作基础模型(VLA)体系,以期让机器人具备更强的环境感知和决策能力,这也成为机器人从实验室向现实任务迁移的重要基础。
SOP 这类在线后训练系统为机器人规模化部署与智能长期演进提供了重要思路。它突破了过去机器人学习对离线数据的依赖,将个体经验高效融入集体知识库,使机器人不再是固定策略的执行体,而是能够在真实世界中不断学习、持续进化的智能体。这对于具身智能、大规模机器人部署乃至通用机器人发展都具有里程碑意义。
未来,随着在线学习技术与真实世界数据采集体系的进一步完善,机器人有望在更多实际场景中实现稳健运行,从被动执行预设任务逐渐迈向自主学习与优化,真正实现智能机器人的规模化落地。