微软研究院发布Rho-alpha机器人模型，融合了视觉、语言和触觉功能_科技动态

微软研究院发布Rho-alpha机器人模型，融合了视觉、语言和触觉功能

创始人

2026-02-06 22:00:50

0次

智行时代——具身智能技术生态

据Robotics & Automation News报道，微软研究院发布了Rho-alpha，这是一款新型机器人模型，旨在帮助机器人理解自然语言指令，并在结构化程度较低的环境中执行复杂的物理任务。

该模型源自微软的Phi系列视觉语言模型，目前正通过微软的早期研究访问计划（REAP）发布。据微软称，Rho-alpha旨在推动新一代机器人系统的发展，使其能够在动态的真实世界环境中进行感知、推理和行动。

几十年来，机器人最擅长在工厂和仓库等严格控制的环境中运行，因为这些环境中的任务是可预测的，并且经过精心编写。然而，近年来智能体人工智能的进步正在催生新的“视觉-语言-动作”模型，使物理系统能够以更高的自主性运行。

Rho-alpha属于此类，它能将自然语言指令转换为控制信号，用于执行双手操作任务的机器人系统。微软将其描述为“VLA+”模型，因为它超越了传统的视觉和语言输入，融合了其他传感方式。

其中一项新增功能是触觉传感。微软研究院表示，Rho-alpha集成了触摸数据，目前正在进行相关研究，以支持其他传感方式，例如力感应。该公司还表示，该模型旨在通过学习用户与机器人互动时提供的反馈，在部署过程中不断改进。

模型训练高度依赖于合成数据。微软研究院开发了一种多阶段训练流程，该流程利用强化学习和仿真技术，基于英伟达的Isaac Sim框架，无需进行大量的实际远程操作即可生成大量训练数据。

参与该项目的研究人员表示，缺乏多样化的真实世界机器人数据仍然是基础模型面临的主要挑战。

华盛顿大学助理教授阿比舍克·古普塔(Abhishek Gupta)表示：“虽然通过远程操作机器人系统生成训练数据已成为一种标准做法，但在许多情况下，远程操作是不切实际的或不可能的。我们正在与微软研究院合作，利用仿真和强化学习相结合的方法，通过各种合成演示来丰富从物理机器人收集的预训练数据集。”

英伟达与微软研究院合作开发了仿真基础设施，并强调了合成数据在加速机器人技术发展中的作用。

英伟达机器人和边缘人工智能副总裁迪普·塔拉（Deepu Talla）表示：“训练能够推理和行动的基础模型需要克服多样化真实世界数据的匮乏问题。通过利用Azure上的Nvidia Isaac Sim生成物理上精确的高保真合成数据集，微软研究院正在加速开发像Rho-Alpha这样能够掌握复杂操作任务的多功能模型。”

微软已开放Rho-alpha研究早期访问计划的注册，并表示将在未来几个月内发布有关其机器人研究工作的更多更新信息。

上一篇：航升卫星正式落户济南卫星制造基地，设计产能不低于年产100颗卫星配套

下一篇：刚刚，ChatGPT 和 Claude 同时大更新，不会给 AI 当老板的打工人要被淘汰

微软研究院发布Rho-alpha机器人模型，融合了视觉、语言和触觉功能

相关内容

热门资讯