智海铸基,数聚砺剑——华为助力国地中心构建全球首个百万量级异构机器人数据集
创始人
2025-07-21 20:20:38
0

联合作者:刘宇飞、杨白冰、张靖、周顺波、白涛

具身智能(Embodied Artificial Intelligence,简称 EAI)作为人工智能与机器人学深度融合的前沿领域,是引领未来生产力变革的关键驱动力,其发展水平直接影响国家在未来产业中的地位,我国通过政策顶层设计和技术攻关,正加速具身智能产业从技术验证向规模商用过渡,矢志于产业链从 “跟跑” 向 “领跑” 的转变。《2025政府工作报告》中,具身智能被作为培育新兴产业、未来产业的战略重点方向。

国家地方共建人形机器人创新中心(以下简称“国地中心”)于 2024 年 5 月正式由工信部和上海市政府共同授牌成立。作为人形机器人领域的首个国家级公共平台,其致力于构建行业大数据集,推动技术研发、企业孵化与人才培育。

目前,华为正助力国地中心建设全国首个异构超大型人形机器人训练场,预计可容纳100 台+人形机器人同时训练,到 2027 年将扩容至满足 1000 台同时训练。

发挥平台战略定位

实现五大核心功能

为了填补规模化异构人形机器人数据集的空白、推动我国具身智能发育持续追赶国际顶尖、加速人形机器人产业化和规模化落地应用,在国家工信部、上海市政府、浦东区的大力支持下,国家地方共建人形机器人创新中心建设完成全球首个异构人形机器人具身智能训练场(以下简称“训练场”),同时也是我国首个国家级人形机器人训练场,聚焦领域发展趋势、聚焦国家重点场景、聚焦真机具身数据,是进一步强化我国人形机器人研发和应用的基础支撑。

训练场致力于实现如下5大功能:

1.数据收集与规模化

在训练场中,人形机器人可以通过与环境的交互收集大量数据,用于优化算法和提升性能。这些数据可以用于训练机器人的感知、决策和控制能力,进一步提高其智能化程度。

2.模型训练与发育

训练场提供模型训练与发育的基础设施,支持人形机器人通过模仿学习、强化学习等方法进行技能提升。结合大模型技术,机器人可以在复杂场景中持续学习并获取长序列任务操作技能,实现大规模机器人高效智能发育与进化。

3.场景模拟与应用落地

训练场能够模拟多种应用场景,如养老、工业巡检、医疗护理、家庭服务等,帮助人形机器人适应不同的任务需求,加速其从实验室到实际应用的落地过程。

4.模型测试与评估

训练场专注于对人形机器人的模型性能进行测试与评估,包括运动能力、感知精度、决策逻辑、交互效果等关键指标。通过标准化的测试流程和多样化的场景设置,对机器人的算法、模型和系统进行全面验证,确保其在实际应用中的可靠性和稳定性。

5.人才培养与生态建设

训练场作为人才培养的基地,为研究人员、工程师和学生提供实践机会,推动人形机器人技术的普及和发展。通过举办培训、竞赛、学术交流等活动,训练场还可以促进产业生态的建设,吸引更多的企业和科研机构参与人形机器人领域的创新。

华为助力国地中心构建完整解决方案

多项举措助力构建训练场数智根基

针对上述5大关键需求,华为助力国地中心打造了一套完整的“数据采集→数据传输→预处理→仿真合成→数据管理→模型训练”的解决方案,从数据到模型的全生命周期实现全面使能。

其中包含以下几项关键举措:

1.高效稳定的边端数据采集方案

国地中心“具身数据采集平台”采用“云-端”架构对整个训练场进行部署,确保整个数据采集过程的高效稳定。

机器人端侧数据具有“多机-多场景-多任务”的特点。单台机器人每日采集轨迹数据500条以上,每日总计5万条数据。边端协同解决方案,采用华为Wi-Fi +5G方案,其中,华为Wi-Fi设备以高带宽、低延迟、多设备并发优势,为室内场景提供稳定高效的网络连接,华为5G设备则凭借广覆盖、高速率、低时延特性,实现跨区域、高移动性场景下的无缝网络通信,二者协同互补,实现规模化采集任务。

在数据传输过程中,训练场采用DES数据快递服务,使能海量具身智能数据高效、安全上云,可支持日增PB级数据。在5G的加持下,覆盖广、效率高,不再需要通过传统地远程物流和公网传输方式,大幅降低数据传输距离与时间;并通过IoT物联网HTTPS双向证书认证,防止人为恶意数据泄露。

2.完善数据管理体系,构建行业级共建共享数据集

数据上云后,需要立刻进行数据预处理,国地中心“具身数据管控平台”采用华为云弹性计算+DWR数据工坊,支持数据闭环实现源端合规脱敏。云上脱敏+源端脱敏支持日增PB级数据8小时高效完成预处理。

在真实世界采集的数据会有成本高、场景覆盖不足等问题。华为具身智能仿真开发与管理平台通过仿真合成模块构建虚拟场景模拟真实环境并生成多样化数据样本,以真实数据为种子,从一到万,实现数据增广,拓展数据集广度。

作为行业级共建共享数据集,必须具备完整的数据管理体系,训练场数据集采用三级存储,包括:1.缓存数据(≈1%):AI训练数据集,自动加载供AI引擎调用。2.热数据(<10%):待处理的数据和场景库数据。3.归档数据(>90%):处理完成的原始数据,通过生命周期功能自动归档。

整套数据管理解决方案可实现数据的高效访问,并降低存储成本50%。

3.使能模型训练,极致利用有效算力资源

在传统模型训练过程中,并不是GPU算力越高就越能发挥出训练效率,如果数据使用效率跟不上,就会造成GPU算力大量闲置、训练效率无法突破瓶颈的尴尬情况。国地中心采用华为SFS Turbo高性能缓存使能模型训练,作为OBS数据访问的加速器,SFS Turbo具有AI引擎/算法开发零改动、单文件系统带宽60GB/s高性能、分级存储降低数据存储成本40%、10亿AI训练文件30分钟完成加载和预热的特点。

再配合LMS知识湖存储,解决大规模知识湖下RAG的存储和检索性能挑战,解决模型训练中,标签检索效率低、开源向量规模小的问题。

让AI芯片100%繁忙,极致利用算力资源!

4.围绕生态合作,共建共享,立足于服务全国产业

训练场依托整套数据采集与管理方案,国地中心打造了“白虎数据集v0.0.1”,通过信通院《具身智能数据集质量要求及评价方法》行业标准的质量评估。数据集为服务于整个产业生态建设了共享数据集,并定义数据标准,各企业可有效减少“重复造轮子”,把精力更多地放在技术攻关上。

共建共享是数据集的愿景。

共建--“独行快,众行远”,华为助力国地中心,通过统一数据规范与多元任务设计,打造出数据标准高度统一、机器人本体与任务形态高度多样的异构采集体系。牵引行业头部企业及其他地区的训练场(如安徽、江苏…),共同打造数据集。

共享--一是数据共享,“白虎数据集”是全球首个规模突破百万量级的异构机器人数据集,也是我国首个获得信通院权威认证的具身智能机器人数据集,为服务全产业链奠定权威基础。二是模型共享,训练场模型训练后,积极在OpenLoong 开源社区、Hugging Face、GitHub 等平台分阶段开源,定期更新 Benchmark 测试指标。并与清华大学、上海交大、华为等科研院所和企业深化合作。

人形机器人具身智能训练场聚焦领域趋势、国家重点场景及真机具身数据,将填补规模化异构人形机器人数据集空白,推动我国具身智能技术追赶国际顶尖水平,加速人形机器人产业化与规模化落地应用,为上海乃至全国的人形机器人产业筑牢创新根基。

相关内容

热门资讯

从向新而行到向实同行,中国联通... 通信世界网消息(CWW)7月18日-19日,2025中国联通合作伙伴大会在上海世博中心举办。“向实同...
铅含量超标1550倍!注意,你... 换上各种新奇的手机壳, 正成为不少人无法拒绝的 日常“小幸福”。 天天换,没那么多钱支撑咋办? 不愁...
聚焦“精准”“有序” 工信部支... 7月20日,2025中国产业转移发展对接活动(广西)在南宁开幕。活动期间共促成签约项目296个,签约...
苹果启动iOS 27开发:将为... 7月21日,知名苹果爆料人马克・古尔曼称,苹果很快就会启动iOS 27的开发工作,该公司将优先为折叠...
原创 固... 知嘹汽车/陈壹 根据海外媒体的消息,路虎揽胜星脉纯电动版车型将于明年春季亮相,年中上市。 新车基于E...
台风“韦帕”影响!湛徐、徐闻港... 截至7月21日17时,今年第6号台风“韦帕”余威仍在,受琼州海峡停航影响,交警实施交通管制,湛徐高速...
海尔取得一种空调器专利,可提高... 金融界2025年7月21日消息,国家知识产权局信息显示,青岛海尔空调器有限总公司、青岛海尔空调电子有...
原创 日... 2025年7月16-20日,第三届中国国际供应链促进博览会(链博会)在北京成功举办。作为立白科技集团...
打造跨界融合生态圈,THinK... 人民网上海7月20日电(记者董志雯)当人工智能以前所未有的速度重塑世界,技术的狂奔与人文的沉思如何同...
国家级机械表研究中心落户海鸥!... 天津北方网讯:近日,在天津海鸥工业园,中国钟表协会机械表文化(天津)研究中心正式挂牌成立,同时天津海...