AI学会左脚踩右脚自进化?Meta华人新研究改写Agent法则
创始人
2026-04-06 16:08:21
0

新智元报道

编辑:元宇

【新智元导读】过去Agent比谁更会干活,现在可能要比谁更会变强。

AI已经学会「左脚踩右脚上天」了?

Meta的一项最新研究表明:AI已经开始碰自己的「进化引擎」了。

华人学者Jenny Zhang在Meta实习期间,联合Meta AI、UBC、纽约大学等机构研究者,提出了一种新的智能体框架:HyperAgents(DGM-H

https://arxiv.org/abs/2603.19461

这项工作的重点,不是再造一个更能干活的Agent。

它瞄准的是更高一层的问题:

如果AI已经能够修改自己的任务解法,那它能不能连「自己以后该怎么修改自己」这件事,也一并改掉?

论文给出的答案是:可以。

而且,这不再是概念推演,而是已经在实验中跑通的系统能力。

HyperAgents做的关键一步,是把「执行任务的 agent」和「负责改进 agent 的 meta agent」合并进同一个可编辑程序里,作者将之称为hyperagent。

DGM依赖任务与自修改能力的对齐,而DGM-H不再需要这种对齐

在新框架下,系统不只会修改任务求解逻辑,还开始修改未来生成改进方案的机制本身。

论文把这种能力称为metacognitive self-modification,也就是:元认知自我修改

过去行业竞争的是:谁的Agent更会干活。

而HyperAgents 指向的下一阶段则可能是:谁的Agent更会变强,而且会越来越会变强

以往的「自我进化」

其实还只是半手工

这篇论文,指出了上一代自我进化路线的天花板。

去年的Darwin Gödel Machine(DGM),已经很惊艳。

它能在coding任务中不断自改代码、自我验证、把成功版本存进archive,再从这些「垫脚石」里继续往前长。

论文披露,DGM在SWE-bench上能从20.0%拉到50.0%,在Polyglot上从14.2%拉到30.7%。

但问题在于,DGM之所以能在coding里成立,是因为「评估」和「自我修改」本身也都是coding任务。

写代码更强了,反过来就更会改自己的代码。任务能力和自我改进能力,在这个场景里是对齐的。

然而一旦离开coding,这个对齐关系就断了。

比如评审论文、设计机器人奖励函数、给IMO级数学解答打分,这些任务做得更好,不等于你就更会修改自己的元机制。

HyperAgents论文最核心的一招,就是直接把这个假设砍掉:

既然任务能力和自我改进能力未必天然对齐,那就不要再把meta层写死

这说明过去很多「自我进化」系统,本质上还是在人为设定的轨道里进化。

HyperAgents真正改变的,是改变机制本身。

HyperAgents新在哪里?

表面上看,HyperAgents只是多了一个meta agent。

但真正值得注意的是,它把task agent和meta agent合成了同一个可编辑程序。

以前的DGM里,系统有一个手工设计的instruction-generation机制,负责根据过往表现决定下一步怎么改。

这一步不能被改,所以它反而成了整个系统的瓶颈。

HyperAgents的做法是把这部分也纳入可修改范围。

换句话说,AI不只是改自己的答案、自己的工具、自己的流程,它开始改「自己怎么提出修改建议」。

DGM里上层机制基本固定,DGM-H里meta层本身也进入可演化空间,也就是说,它是一个会经营自己进化过程的系统。

所以,HyperAgents做的不是「再加一个Agent」,而是取消了「上层永远不变」这个默认前提

自我改进开始跨域迁移

在coding任务中,HyperAgents在Polyglot 上的提升,与原始DGM处在同一量级:50-task训练子集从0.140提升到0.340,完整benchmark从0.084提升到0.267。

换句话说,它并不是只靠牺牲泛化来换局部成绩。

更关键的是,它不只在coding任务成立,还能在paper review、robotics reward design等非coding任务上继续自我改进。

在paper review上,初始agent在测试集得分为0.0,DGM-H提升到0.710;在robotics reward design上,则从0.060提升到0.372。

更关键的是,这些提升不仅出现在训练任务里,也转移到了held-out test tasks。

与此同时,对照组也很说明问题:去掉self-improve,效果明显变弱;去掉open

相关内容

热门资讯

科创001 | “算力上天”赛... 深圳商报·读创客户端首席记者 王海荣 6月29日,持续两天的2026全球数字经济大会首届全球太空算力...
分拆可灵再造一个新快手?程一笑... 可灵的表现,将是衡量程一笑时代快手的重要指标。 2026年智谱暴涨的市值,让很多互联网巨头陷入了尴尬...
华为Mate 40 Pro早期... IT之家 6 月 29 日消息,B站 UP 主 @才羽モモイMomoi 昨晚(6 月 28 日)发布...
甘肃工程咨询集团科学技术协会成... 新甘肃客户端讯(新甘肃客户端记者 李杨 万及敏)6月26日,甘肃工程咨询集团股份有限公司科学技术协会...
市政协召开“聚焦智慧场景应用 ... 6月29日,市政协召开“聚焦智慧场景应用 推进数字营口建设”专题协商会。市政协主席李红莉参加会议并讲...
大数据与AI如何真正进入医疗现... “在这里,医疗AI已不是概念,我看见AI进入真实诊疗流程。”6月29日,在复旦大学附属中山医院举行的...
AI算力建设提速拉动上游需求,... 来源:界面新闻 近日,香港科技园公司与商汤科技签署合作备忘录,围绕AI算力基础设施搭建、AI产业生态...
杨燕青:AI正在改写经济学底层... 来源:第一财经 经济学界必须重新评估传统的内生增长模型、劳动力市场出清机制以及现有的社会财富契约。 ...
原创 众... 众泰汽车,又有了新动静。 近日,印尼BPKN主席穆罕默德·穆夫提·穆巴拉克博士带队商务考察团,专程到...
存储三巨头合谋制造“内存末日”... 6月29日消息,据报道,三星、SK海力士和美光6月25日在美国加利福尼亚联邦法院被提起集体诉讼,被控...