人形机器人加速“进化”,专家:距离像人一样思考和行动还很远
创始人
2025-02-26 09:40:38
0

【环球时报报道 记者 陈子帅】从简单的独立行走到精准的前后空翻,从经过反复训练才能抓取物品到无须训练就能听从指令处理家务……人形机器人的“进化”速度令人惊讶。最近,硅谷机器人创新公司Figure AI的最新大模型Helix亮相,业内有观点认为,Helix的能力“前所未有”,让机器人能够像人一样思考与行动。Figure AI这次发布究竟有哪些重大突破?它会是现阶段人形机器人的主流发展方向吗?中外人形机器人具有哪些不同的发力方向?《环球时报》记者对此进行了采访和调查。

这个刷屏的美国机器人有啥绝活

在Figure AI公布的一段近3分钟视频里,两台Figure人形机器人按照工作人员的指令,配合默契地将一堆食物与杂货放入冰箱等相应的位置。

美国机器人网站The Robot Report提到,视频中有几个值得注意的要点,例如两个机器人并不进行语言交流,但它们在互动过程中会有明显的停顿,它们盯着对方,似乎是一种不可思议的“心灵感应”。

按照Figure AI公司的说法,两台机器人共用一个大模型“大脑”,协作完成复杂任务,这在行业内是首例。此外,Helix还创造了其他多项“第一”:它是全球首个能够对整个人形机器人上半身进行高频率、连续控制的视觉-语言-动作(VLA)模型;它仅需接收自然语言指令,就能拾取几乎任何小型家用物品,包括数千种它从未见过的物品。这些体现了人形机器人的“泛化”能力。

“Helix最大的突破在于它是一个‘通用’的视觉-语言-动作(VLA)模型。这意味着它将机器人的视觉感知、自然语言理解和动作控制整合到了一个统一的框架中,这就是有点奔着端到端具身智能大模型方向去了。”一位人工智能专家告诉《环球时报》记者,传统的机器人系统往往针对特定任务进行设计,需要大量的编程工作,难以适应新的环境和任务。而Helix模型则具备更强的泛化能力,能够理解自然语言指令,并处理之前从未见过的任务,这大大减少了对特定任务演示或大量手动编程的需求。

《环球时报》记者在调查和采访中了解到,Helix模型目前还存在一些短板。首先,Helix目前主要应用于Figure机器人的上半身控制,包括手腕、头部、手指甚至躯干。这意味着,对于下半身的控制,比如行走、奔跑等,可能还需要进一步研发和完善。其次,尽管Helix在数据利用效率上表现出色,但其训练所用的数据量仍然相对较少,这可能会影响它在处理更复杂、更多样化任务时的表现。

代表未来发展方向吗

值得关注的是,大模型与人形机器人的融合日益加深。Helix模型不仅让机器人能够“看懂”“听懂”,更重要的是,能够让机器人根据所见所闻,做出相应的行动。这打破了以往机器人技术中感知、理解和行动之间的壁垒,实现了更高层次的智能化。有专家告诉记者,Helix模型可以被视为人形机器人发展历程中的一个重要节点,是数字化的AI模型与物理世界的真实交互,是一种“虚实融合”。

《环球时报》记者在采访中了解到,从Helix的架构来看,它与最近一篇发表在2024年机器人学习大会(CoRL)上的论文“非常相似”。

“Figure AI认可了这条路线并成功移植到实体机器人上。Helix的出现证明了‘具身智能’方向的迭代速度越来越快,许多最新提出的技术路线能迅速落地到真实机器人身上。不过,目前我们依然处在技术爬坡阶段,量产仍是具身智能机器人领域面临的最大挑战。”深圳市人工智能与机器人研究院具身智能中心主任刘少山对《环球时报》记者表示。

业内普遍认为,“端到端”具身智能大模型是人形机器人发展的重要方向之一。即希望机器人能够像人一样,直接根据眼睛看到的、耳朵听到的信息,做出相应的反应,然后去执行任务。

“像Helix这样的通用型VLA(视觉-语言-动作)模型,很可能代表了人形机器人大模型的一种主流发展方向。从目前的技术趋势来看,人形机器人需要的大模型,不仅仅是‘大’,更重要的是‘通’(指的是模型的通用性和泛化能力)和‘精’(模型的高效性和精确性)。”专家说。

不过,“端到端”具身智能大模型并非是人形机器人发展的唯一目标,也不是现阶段的全部。业界还存在另一种技术路线,即基于LLM(大语言模型)或VLM(视觉-语言模型)的分层大模型。此方案难度低一些,一般将任务分解为感知、决策、执行等多个模块,每个模块可以使用不同的模型来实现,更易于快速落地和迭代。一些行业内的头部企业,都采用了这种方案。

刘少山表示,与聊天式大模型相比,具身智能大模型更需要的是强大的“学习能力”——它必须能在陌生环境中,通过与环境的交互不断学习和进化。当前大模型大多是从海量数据中提取知识,而具身智能则强调“学习如何学习”,而非简单记忆已有的知识。只有具备这类元学习、上下文强化学习等理论基础,才能真正实现通用智能。虽然这类研究方向提供了思路,但还需要时间来发展和完善。

国内外机器人各有侧重

全球人形机器人的技术竞赛正在升温,新技术亮相越来越密集。近日,国产“天工”机器人成为全球首例可在室外连续攀爬多级阶梯的人形机器人。“天工”实现了基于视觉的感知行走,可实现无磕碰、不踩棱、不踏空地跨越连续多级楼梯和35厘米大高差台阶,奔跑时速提高至12公里,并且能在雪地进行高速奔跑。深圳一家机器人公司的产品则完成了全球首例人形机器人“前空翻”特技。

“与Figure的最新机器人技术相比,国内的机器人是在不同领域各有侧重。”一位人工智能专家告诉《环球时报》记者,国内机器人公司在运动控制方面取得了显著成果,例如跳舞、空翻等。这些机器人可能在部分处理复杂任务,特别是涉及与环境的深度交互、理解自然语言指令等方面,与Figure相比可能有一定差距。

何时能像人一样思考

在Helix的加持下,人形机器人能够直接理解自然语言、解析视觉信息,并执行相应动作。有科技媒体评论称,Helix让机器人像人一样思考和行动。Figure AI首席执行官宣称,“Helix的思维方式类似于人类。”刘少山认为,“目前仍处于行业的早期阶段,要让人形机器人真正具备与人类相似的思维能力,还有很长的路要走。即便最先进的大模型,在几乎无限算力的支持下,与人类的思维方式和水平依然存在显著差距。”

另一位专家称,综合国内外多篇论文来看,目前最先进的大模型应该定性于“初始AGI(通用人工智能)”阶段,虽然能力很强,但仍局限于特定领域,比如做题目等,无法在所有通用任务中始终超越人类。要实现真正像人一样思考,人形机器人需要实现通用人工智能(AGI)乃至超级人工智能(ASI)。这就得包括更先进的算法、更强大的计算能力、更完善的感知系统,以及对人类大脑工作机制的更深入理解。“这是一个长期、渐进的过程,可能需要十几年、几十年甚至更长时间。”

“大家都是在黑暗中摸索,你现在走的路线看似取得了一定成果,最后这个路线就一定能走得通吗?这个问题没有人能够给出答案。”上述不具名专家告诉《环球时报》记者,发展未来产业的精神,就是在不确定性中寻找最大的确定性。阶段性的成果也能够形成较好的规模应用,造福社会,赋能产业。“我们一开始奔着终极目标,哪怕遭遇挫折,有部分技术转化为成果也可以,并不强求非得造出一个全知全能的AGI。”

专家在受访时还提到,未来人形机器人可能会出现新的形态。一方面,机器人不必非得是人形,“实际上人形态并不是专业场景下最好的选择,有时候轮式甚至机械臂工作效果更好、性价比更高。”另一方面,人形机器人可能会呈现虚拟形态,类似更智能、更完善的数字人。“类似于电影《流浪地球2》中的MOSS系统,也有一定的可能,但这些距离现实还相当遥远。”

相关内容

热门资讯

SUS431不锈钢化学成分与材... SUS431 不锈钢的用途及特性 1. 概述 SUS431 是一种马氏体不锈钢,具有高强度和良好的耐...
局域网监控软件哪家好?5款高端... 你是否遇到过这样的烦恼: 公司网络突然变慢,却找不到原因? 员工上班时间刷视频、打游戏,工作效率低下...
什么是终端安全管理系统?(终端... 古语有云:“工欲善其事,必先利其器。” 企业的信息安全防护工作正如工匠打造精品,需要借助先进的工具来...
火星春日奇观:冰川崩裂,干冰喷... 火星的春季,与我们地球上的春暖花开截然不同,它以一系列震撼的自然现象宣告着季节的更迭。2024年11...
“金企赋能+讲堂”第三期:AI... 来源:新锐山东2025 为进一步推动辖区企业数字化转型,提升职工业务创新与智能化办公能力,2月22日...
直播电商推动仙游木作产业带数智... 2月18日,中国社会科学院财经战略研究院课题组、中国社会科学院大学平台经济中心和中国市场学会联合发布...
山东港口发布《人工智能(大模型... 海报新闻记者 陈博通讯员 李春颖 报道 2月19日,山东港口2025年度科技创新大会在青召开,正式发...
DeepSeek掀起中国AI革... 自今年1月以来,DeepSeek浪潮席卷全球,引发广泛关注与行业变革。国产AI芯片厂商迅速响应,积极...
座谈会上最年轻的人,也被打压过 作者| 猫哥 来源| 大猫财经Pro 机器人概念彻底火了,最重要的一个推手无疑就是宇树科技。 去年...
学而思“上新”,学习机的“参数... 来源:雪豹财经社 在小红书上,“学习机哪个牌子好用推荐”的相关笔记超过130万篇。面对市面上大量同质...