基于数万次真机评测,机器人大模型年度评测报告发布
创始人
2026-02-04 18:00:38
0

中国日报2月4日电(记者 马思)当大语言模型在数字世界不断刷新人类认知边界,一场关于 AI 如何“扎根”现实物理世界的革命正悄然进行。全球首个具身智能大规模真机评测平台—— RoboChallenge 近日正式发布首份年度报告。报告基于过去数月内(2025 Q4~2026 Q1)平台完成的数万次严苛远程真机测试,以大规模、标准化、可复现的数据,客观揭示了当前视觉-语言-动作模型在真实物理环境中的能力边界与共性挑战。

近年来,大语言模型与视觉语言模型取得了爆发式突破,人工智能在感知、认知与推理层面展现出惊人潜力。然而,将这种能力可靠地赋予机器人,使其在复杂多变的物理世界中理解、决策并执行任务,仍是横亘在研究者面前的巨大挑战。真机测试长期面临难以复现、缺乏统一标准、成本高昂等核心痛点,导致模型评估往往停留在仿真环境或有限场景,其“现实世界智能”成色几何,始终难以量化评判。RoboChallenge正是为破解这一行业共性难题而生。

据悉,作为由原力灵机与 Hugging Face 联合发起的全球首个具身智能大规模真机评测平台,RoboChallenge致力于构建一个开放、公正、可大规模复现的“真实考场”。自 2025 年 10 月 15 日正式上线以来,平台已成功部署了包含 UR5、Franka Panda、ARX5、ALOHA 等四大主流机型在内的 20 台真机集群,构筑起一个稳定、多元的远程物理测试网络。

为推动真机评测走向规范化、标准化,2025 年 11 月 20 日,原力灵机与 Hugging Face 深度集结智源研究院、智元机器人、Qwen、星海图、自变量、清华大学、西安交通大学及 GOSIM,共同成立了 RoboChallenge 组委会。

基于对海量真机测试数据的深度分析,RoboChallenge 年度报告揭示了以下核心发现与亮点观察:基础任务趋近成熟,“叠碗”和“物体移入盒子”两项任务因其相对较高的成功率,成为多数模型首选的验证性任务,类似具身智能的入门“考题”。复杂任务依然“屹立不倒”:涉及多步骤序列决策、长期规划及精细灵巧操作的任务,如“整理纸杯”、“制作三明治”等,

此外,报告指出,对当前所有参测模型而言仍极具挑战,成功率长期处于低位,部分甚至接近零。当前在 Table30 评测集上表现最佳的模型,其整体成功率也仅在 50% 左右。这既体现了现有模型的进步,也充分说明了 Table30 任务集设计的挑战性与现实价值,表明具身智能在通用能力上仍有巨大提升空间。

同时,实测数据显示,参测模型虽具备较强的指令语义理解能力(呈现移动趋势),但在精细操作任务中成功率不足 15%。这种现象在 RoboChallenge 平台上沉淀了大量真机失败数据,这份公开的“错题集”可作为模型迭代优化的关键参考。

RoboChallenge 标为,未来将持续迭代,引入更多机器人本体类型,拓展至更多元化、更贴近真实工业与家庭需求的场景评测集,并设计更具挑战性的任务。平台还将探索分布式真机评测机制,进一步扩大测试规模与效率。

相关内容

热门资讯

小米发布全屋智能AI开源方案M... 【CNMO科技消息】6月18日,小米正式发布以MiMo大模型为核心的全屋智能AI开源方案Miloco...
存在约1年时间:微软修复Win... IT之家 6 月 20 日消息,微软于 6 月 18 日更新官方支持文档,承认在 Windows 1...
钢网擦拭纸和普通无尘纸有什么区... 很多刚接触SMT行业的采购人员或设备维护人员都会有这样的疑问:钢网擦拭纸看起来和普通无尘纸差不多,为...
曝佳能2026年将发RF 24... 据悉,佳能正计划于2026年发布多款具备“全球首发”意义的RF卡口镜头,阵容涵盖备受瞩目的RF 24...
微软官宣今秋上线Win11 2... IT之家 6 月 20 日消息,微软今天(6 月 20 日)发布公告,宣布将延续 25H2 更新模式...
吕梁中压发电车出租 在电力供应体系中,临时性或应急性的电力保障是一个关键环节。当固定电网因检修、故障或容量不足而无法正常...
技术攻关筑牢根基 解锁航运绿色... 来源:星沙时报 来源:人民网 走进上海海事大学综合机舱实验室,主机运转的低沉声浪扑面而来,集控室显示...
IPO研究|预计2030年中国... 瑞财经 吴文婷6月18日,数说故事人工智能科技股份有限公司(以下简称“数说故事”)在港交所递交招股书...
事关AI+消费,商务部等8部门... 为贯彻落实《国务院关于深入实施“人工智能+”行动的意见》和《中共中央办公厅 国务院办公厅关于印发〈提...
原创 荣... 纵观今年618手机销量榜单,1500元价位段出现了一匹黑马——荣耀X70焕新版,长期稳居同价位销量榜...