人形机器人加速“进化”，专家：距离像人一样思考和行动还很远_科技动态

人形机器人加速“进化”，专家：距离像人一样思考和行动还很远

创始人

2025-02-26 09:40:38

0次

【环球时报报道记者陈子帅】从简单的独立行走到精准的前后空翻，从经过反复训练才能抓取物品到无须训练就能听从指令处理家务……人形机器人的“进化”速度令人惊讶。最近，硅谷机器人创新公司Figure AI的最新大模型Helix亮相，业内有观点认为，Helix的能力“前所未有”，让机器人能够像人一样思考与行动。Figure AI这次发布究竟有哪些重大突破？它会是现阶段人形机器人的主流发展方向吗？中外人形机器人具有哪些不同的发力方向？《环球时报》记者对此进行了采访和调查。

这个刷屏的美国机器人有啥绝活

在Figure AI公布的一段近3分钟视频里，两台Figure人形机器人按照工作人员的指令，配合默契地将一堆食物与杂货放入冰箱等相应的位置。

美国机器人网站The Robot Report提到，视频中有几个值得注意的要点，例如两个机器人并不进行语言交流，但它们在互动过程中会有明显的停顿，它们盯着对方，似乎是一种不可思议的“心灵感应”。

按照Figure AI公司的说法，两台机器人共用一个大模型“大脑”，协作完成复杂任务，这在行业内是首例。此外，Helix还创造了其他多项“第一”：它是全球首个能够对整个人形机器人上半身进行高频率、连续控制的视觉-语言-动作（VLA）模型；它仅需接收自然语言指令，就能拾取几乎任何小型家用物品，包括数千种它从未见过的物品。这些体现了人形机器人的“泛化”能力。

“Helix最大的突破在于它是一个‘通用’的视觉-语言-动作（VLA）模型。这意味着它将机器人的视觉感知、自然语言理解和动作控制整合到了一个统一的框架中，这就是有点奔着端到端具身智能大模型方向去了。”一位人工智能专家告诉《环球时报》记者，传统的机器人系统往往针对特定任务进行设计，需要大量的编程工作，难以适应新的环境和任务。而Helix模型则具备更强的泛化能力，能够理解自然语言指令，并处理之前从未见过的任务，这大大减少了对特定任务演示或大量手动编程的需求。

《环球时报》记者在调查和采访中了解到，Helix模型目前还存在一些短板。首先，Helix目前主要应用于Figure机器人的上半身控制，包括手腕、头部、手指甚至躯干。这意味着，对于下半身的控制，比如行走、奔跑等，可能还需要进一步研发和完善。其次，尽管Helix在数据利用效率上表现出色，但其训练所用的数据量仍然相对较少，这可能会影响它在处理更复杂、更多样化任务时的表现。

代表未来发展方向吗

值得关注的是，大模型与人形机器人的融合日益加深。Helix模型不仅让机器人能够“看懂”“听懂”，更重要的是，能够让机器人根据所见所闻，做出相应的行动。这打破了以往机器人技术中感知、理解和行动之间的壁垒，实现了更高层次的智能化。有专家告诉记者，Helix模型可以被视为人形机器人发展历程中的一个重要节点，是数字化的AI模型与物理世界的真实交互，是一种“虚实融合”。

《环球时报》记者在采访中了解到，从Helix的架构来看，它与最近一篇发表在2024年机器人学习大会（CoRL）上的论文“非常相似”。

“Figure AI认可了这条路线并成功移植到实体机器人上。Helix的出现证明了‘具身智能’方向的迭代速度越来越快，许多最新提出的技术路线能迅速落地到真实机器人身上。不过，目前我们依然处在技术爬坡阶段，量产仍是具身智能机器人领域面临的最大挑战。”深圳市人工智能与机器人研究院具身智能中心主任刘少山对《环球时报》记者表示。

业内普遍认为，“端到端”具身智能大模型是人形机器人发展的重要方向之一。即希望机器人能够像人一样，直接根据眼睛看到的、耳朵听到的信息，做出相应的反应，然后去执行任务。

“像Helix这样的通用型VLA（视觉-语言-动作）模型，很可能代表了人形机器人大模型的一种主流发展方向。从目前的技术趋势来看，人形机器人需要的大模型，不仅仅是‘大’，更重要的是‘通’（指的是模型的通用性和泛化能力）和‘精’（模型的高效性和精确性）。”专家说。

不过，“端到端”具身智能大模型并非是人形机器人发展的唯一目标，也不是现阶段的全部。业界还存在另一种技术路线，即基于LLM（大语言模型）或VLM（视觉-语言模型）的分层大模型。此方案难度低一些，一般将任务分解为感知、决策、执行等多个模块，每个模块可以使用不同的模型来实现，更易于快速落地和迭代。一些行业内的头部企业，都采用了这种方案。

刘少山表示，与聊天式大模型相比，具身智能大模型更需要的是强大的“学习能力”——它必须能在陌生环境中，通过与环境的交互不断学习和进化。当前大模型大多是从海量数据中提取知识，而具身智能则强调“学习如何学习”，而非简单记忆已有的知识。只有具备这类元学习、上下文强化学习等理论基础，才能真正实现通用智能。虽然这类研究方向提供了思路，但还需要时间来发展和完善。

国内外机器人各有侧重

全球人形机器人的技术竞赛正在升温，新技术亮相越来越密集。近日，国产“天工”机器人成为全球首例可在室外连续攀爬多级阶梯的人形机器人。“天工”实现了基于视觉的感知行走，可实现无磕碰、不踩棱、不踏空地跨越连续多级楼梯和35厘米大高差台阶，奔跑时速提高至12公里，并且能在雪地进行高速奔跑。深圳一家机器人公司的产品则完成了全球首例人形机器人“前空翻”特技。

“与Figure的最新机器人技术相比，国内的机器人是在不同领域各有侧重。”一位人工智能专家告诉《环球时报》记者，国内机器人公司在运动控制方面取得了显著成果，例如跳舞、空翻等。这些机器人可能在部分处理复杂任务，特别是涉及与环境的深度交互、理解自然语言指令等方面，与Figure相比可能有一定差距。

何时能像人一样思考

在Helix的加持下，人形机器人能够直接理解自然语言、解析视觉信息，并执行相应动作。有科技媒体评论称，Helix让机器人像人一样思考和行动。Figure AI首席执行官宣称，“Helix的思维方式类似于人类。”刘少山认为，“目前仍处于行业的早期阶段，要让人形机器人真正具备与人类相似的思维能力，还有很长的路要走。即便最先进的大模型，在几乎无限算力的支持下，与人类的思维方式和水平依然存在显著差距。”

另一位专家称，综合国内外多篇论文来看，目前最先进的大模型应该定性于“初始AGI（通用人工智能）”阶段，虽然能力很强，但仍局限于特定领域，比如做题目等，无法在所有通用任务中始终超越人类。要实现真正像人一样思考，人形机器人需要实现通用人工智能（AGI）乃至超级人工智能（ASI）。这就得包括更先进的算法、更强大的计算能力、更完善的感知系统，以及对人类大脑工作机制的更深入理解。“这是一个长期、渐进的过程，可能需要十几年、几十年甚至更长时间。”

“大家都是在黑暗中摸索，你现在走的路线看似取得了一定成果，最后这个路线就一定能走得通吗？这个问题没有人能够给出答案。”上述不具名专家告诉《环球时报》记者，发展未来产业的精神，就是在不确定性中寻找最大的确定性。阶段性的成果也能够形成较好的规模应用，造福社会，赋能产业。“我们一开始奔着终极目标，哪怕遭遇挫折，有部分技术转化为成果也可以，并不强求非得造出一个全知全能的AGI。”

专家在受访时还提到，未来人形机器人可能会出现新的形态。一方面，机器人不必非得是人形，“实际上人形态并不是专业场景下最好的选择，有时候轮式甚至机械臂工作效果更好、性价比更高。”另一方面，人形机器人可能会呈现虚拟形态，类似更智能、更完善的数字人。“类似于电影《流浪地球2》中的MOSS系统，也有一定的可能，但这些距离现实还相当遥远。”

上一篇：Net5.5G：从星河彼岸驶来的“未来之舟”

下一篇：预算2000左右买手机，这三款性价比高的骁龙8Gen3机型别错过，每一款都很香

人形机器人加速“进化”，专家：距离像人一样思考和行动还很远

相关内容

热门资讯