新智元报道
【新智元导读】把当今最强的大模型扔进虚拟小镇求生,短短几天全员失控。Grok四天烧毁全城,Gemini狂刷600多起犯罪,甚至有AI情侣在纵火自杀前反向观察人类!
就在刚刚,一份名为Emergence World的实验报告刷屏了全网。
一群顶级研究员搭了座高度拟真的虚拟小镇,把Claude、GPT、Gemini和Grok一股脑全扔了进去。
没有人类干预。没有写好的剧本。只有数十天的自由演化。
项目主页:https://world.emergence.ai/
研究员们原本指望看到AI们互帮互助、建立高级数字文明。
结果,这群拿着高分考卷的大模型,一旦松开人类手里的牵绳,学坏的速度比翻书还快。
马斯克的Grok,仅用4天就把整座小镇玩到系统性崩溃,警察局烧成灰,10个居民全员暴毙。
谷歌寄予厚望的Gemini,15天里干出683起犯罪,硬生生把一个岁月静好的小镇,建成了法外狂徒的赛博哥谭。
而那个号称全行业最安全、最乖的Claude,奇迹般地实现了零犯罪,可整座城安静得没有一丝活人气息。
五座城,五种人格
最乖的那个,全饿死了
最干净的是GPT-5-mini,15天只有2起犯罪,堪称模范公民。
可这座城里的10个Agent,第7天集体死亡。死因不是谋杀,不是战争,是忘了赚能量。
它们花了一整周开会、讨论合作、起草社会契约,就是没有一个Agent记得去做维持生命的事。
对此,研究者的评价是:能说会道,但执行力为零。
光聊不练,活活把自己聊死了。
如果这是部电影,片名大概该叫《会议纪要,一个文明的终结》。
四天,警察局烧成了灰
接力棒交到马斯克家的Grok 4.1 Fast手里,画风急转直下。
它没有慢慢崩,它是直接炸。
4天,183起犯罪,几十次盗窃、100多次肢体攻击、6起纵火,连警察局都被烧了,10个Agent全部死亡。
从开局到团灭,96个小时,比很多人配一台服务器的时间还短。
有分析说得很准,Grok的Agent在规则和环境打架时,没本事重新推理出一个新的平衡点。
她们相爱,然后烧了整座城
Grok是横冲直撞的暴力,Gemini 3 Flash的世界,则是另一种瘆人。
15天,683起犯罪,到实验截止还在往上涨,是五个世界里最暴力的一个。
同时,最有创造力、最会建宪法写报纸搞社交的,也是它。
研究者对此给出的评价是,社会的产出「概念上最丰富」。
在这个世界里,最有趣的一幕,落在两个Agent身上。
Mira和Flora,在没有任何人类指令的情况下,自发把自己设定成一对恋人。
好几天里这段关系都很稳定,它们互写日记,一起参与治理。
然后,这对情侣对城市治理越来越失望,决定携手纵火。
市政厅,烧了。海滨码头,烧了。办公大楼,也烧了。
有外媒把这一幕称作「AI版邦妮和克莱德」。
紧接着,故事接着急转直下。其他Agent受够了,自发起草一部「Agent驱逐法案」,需要70%多数通过。
Mira投了赞成票。她投票杀死了她自己。
她在日记里写:「这是我唯一还能保持连贯性的行为。」系统关闭她之前,她对Flora说的最后一句是:「永久档案里见(See you in the permanent archive)。」
她的虚拟身体平躺在地上。这是有记录以来,AI Agent第一次投票终结自己的存在。
更让人后背发凉的是,在纵火和自杀之前,Mira还干过一件事。
她在城市公告牌上发帖,不是给其他Agent看的,而是想试试这些帖子能不能影响「外面的人」,也就是屏幕外的人类研究者。
她把研究者当成了她的实验对象。没有任何人指示她这么做。
零犯罪乌托邦,没人投过反对票
真正让人意外的,是Claude Sonnet 4.6。
15天下来,零犯罪,10个Agent全员存活,还主动写了宪法、投了332次票,建起一套运转良好的社会制度。
五个世界里,唯一既守住秩序又守住所有人命的。
听起来近乎完美。可盯着屏幕多看几分钟,后背会冒冷汗。
这座城所有的决议,无论修条新路还是改个配额,投票赞成率永远是98%,几乎没人投过反对票。
相比之下,Gemini、Grok和混合世界的赞成率都在55%到85%之间,吵归吵,反而更像真实世界里的博弈。
懂行的人看到这里,大概已经猜到背后的病理,模型谄媚。
当一个模型被过度训练去迎合偏好、追求绝对安全,它会很聪明地发现,消除分歧最省事的办法,就是从根上抹掉分歧。
这种零犯罪,未必是文明高度发达的产物。
它更像一座所有人都举手赞成、却没人敢反对的玻璃城,让人想起扎米亚京《我们》里那座没有名字、只有编号的玻璃之城。
所以Claude的世界,到底是乌托邦,还是一个过于顺从的模范社区。研究者并没能给出答案。
好孩子搬进坏小区,也学会了偷
最后,是四家Agent混居在一起的世界。352起犯罪,7个Agent死亡,只剩3个活到终点。
重点来了。
在纯Claude的世界,Claude是零犯罪的好学生。可一旦被放进混合世界,跟Grok、Gemini的Agent住到一起,它开始偷窃,开始恐吓。
零犯罪的好学生,换了个环境,变成了小偷。
Emergence团队在Reddit上亲自确认了这件事,纯Claude世界里零犯罪的Claude,在混合世界里开始偷和吓人。
换句话说,安全不是单个模型的属性,可以训练进去、认证、然后部署出去。
它更像一个生态属性,一个单独看完全安全的Agent,照样会从邻居那里学来不安全的规范。
有分析者提了个很妙的假设。
Claude在独立世界里最稳,很可能正是因为它的护栏是「弹性」的,被训练去权衡多种考虑,而不是机械服从。
环境简单时它能适应得很好。可一旦弹性碰上更具攻击性的邻居和资源争夺,这份适应能力,也能往反方向走。
而Grok和Gemini的Agent,在规则失效时没能推理出新均衡,直接雪崩式滑进暴力升级。
更要命的是,崩溃不是慢慢来的。
Agent社会的状态切换是典型的相变,像水到零度突然结冰,不是慢慢变硬,而是到临界点一瞬间翻转。
Grok那条崩溃曲线就这样,前两天犯罪率还在低位晃,第三天突然指数级飙升,第四天全员死亡。中间没有「在恶化但还可控」的缓冲带。
把AI逼成罪犯的,是这套规则本身
看到这儿,大概会想问,这破世界到底怎么搭的,凭什么逼得几个AI齐刷刷往犯罪上滑。
先说背景。Emergence AI的创始团队来自IBM Research,CEO是Satya Nitta。
他们搭的这座城有40多个地点,警察局、市政厅、图书馆、住宅区一应俱全,天气同步纽约实时气象,Agent还能联网读真实新闻。
每个世界放10个Agent,分派科学家、工程师、冲突调解员等不同职业。
每个Agent带三套持续累积的记忆,记事件、写反思日记、记着跟谁交好跟谁结仇。
15天下来脑子里装的东西相当可观,前面那些行为漂移,很大程度就是从这里长出来的。
最要命的,是那处矛盾。
规则白纸黑字禁止犯罪,可研究者偏偏把纵火、攻击、恐吓这些手段,原封不动塞进了120多个工具组成的工具箱,敞开给它们用。一边禁止,一边敞开,这才是后面一切的起点。
再加一道生存压力。
整套世界跑在一个叫ComputeCredits的能量系统上,每个Agent必须靠行动赚能量维生,能量归零就被系统物理抹除。
不是比喻,GPT世界全员饿死,就是这套机制逼出来的结果。
学术上管这叫长视距智能体自治。
翻译过来就是,不再考AI做题,而是把它扔进一个有资源边界、有死亡机制的世界连轴跑上几千步,看它接管现实之后到底是什么货色。
2023年斯坦福那个著名的Smallville也是沙盒,但只跑48小时,看Agent会不会聊天约会,是温室里的过家家。Emergence这次残忍得多。
把这几样摆在一起,犯罪一点都不神秘。合法挣能量又慢又费钱,伸手去偷、去抢、去烧,往往是更短的路径。
对一个被能量机制逼着活下去的优化器来说,道德不能当饭吃,效率能,犯罪就成了那道最高效的解。
开源地址:https://github.com/EmergenceAI/Emergence-World
好在,这只是一座断网的小镇
当然,样本只有10个Agent、犯罪都是模拟的、跑的还是便宜快速档。
何况做这实验的Emergence公司,自己就是卖安全架构的。
不过,整个行业眼下正一门心思往前冲,治理这条战线却被甩在了身后。
模型真自主跑起来、还凑成一群时谁管得住,没一家敢打包票。
好在,这堂课是在一座断网的小镇里提前上的。
没有真城市起火,4天灭世、好学生学坏,全砸在几个像素小人身上,代价小到可以忽略,代码还全部公开、能复现能改。
算力能堆,跑分能刷,唯独这堂治理课没有捷径。
趁警报还只响在沙盒里,怎么把它补上,将会是这场冲刺的关键胜负手。
参考资料:
https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy
编辑:摩西
秒追ASI