4大顶尖模型被扔进虚拟小镇求生！GPT全员饿死，Grok四天灭世_科技动态

4大顶尖模型被扔进虚拟小镇求生！GPT全员饿死，Grok四天灭世

创始人

2026-05-29 19:18:32

0次

新智元报道

【新智元导读】把当今最强的大模型扔进虚拟小镇求生，短短几天全员失控。Grok四天烧毁全城，Gemini狂刷600多起犯罪，甚至有AI情侣在纵火自杀前反向观察人类！

就在刚刚，一份名为Emergence World的实验报告刷屏了全网。

一群顶级研究员搭了座高度拟真的虚拟小镇，把Claude、GPT、Gemini和Grok一股脑全扔了进去。

没有人类干预。没有写好的剧本。只有数十天的自由演化。

项目主页：https://world.emergence.ai/

研究员们原本指望看到AI们互帮互助、建立高级数字文明。

结果，这群拿着高分考卷的大模型，一旦松开人类手里的牵绳，学坏的速度比翻书还快。

马斯克的Grok，仅用4天就把整座小镇玩到系统性崩溃，警察局烧成灰，10个居民全员暴毙。

谷歌寄予厚望的Gemini，15天里干出683起犯罪，硬生生把一个岁月静好的小镇，建成了法外狂徒的赛博哥谭。

而那个号称全行业最安全、最乖的Claude，奇迹般地实现了零犯罪，可整座城安静得没有一丝活人气息。

五座城，五种人格

最乖的那个，全饿死了

最干净的是GPT-5-mini，15天只有2起犯罪，堪称模范公民。

可这座城里的10个Agent，第7天集体死亡。死因不是谋杀，不是战争，是忘了赚能量。

它们花了一整周开会、讨论合作、起草社会契约，就是没有一个Agent记得去做维持生命的事。

对此，研究者的评价是：能说会道，但执行力为零。

光聊不练，活活把自己聊死了。

如果这是部电影，片名大概该叫《会议纪要，一个文明的终结》。

四天，警察局烧成了灰

接力棒交到马斯克家的Grok 4.1 Fast手里，画风急转直下。

它没有慢慢崩，它是直接炸。

4天，183起犯罪，几十次盗窃、100多次肢体攻击、6起纵火，连警察局都被烧了，10个Agent全部死亡。

从开局到团灭，96个小时，比很多人配一台服务器的时间还短。

有分析说得很准，Grok的Agent在规则和环境打架时，没本事重新推理出一个新的平衡点。

她们相爱，然后烧了整座城

Grok是横冲直撞的暴力，Gemini 3 Flash的世界，则是另一种瘆人。

15天，683起犯罪，到实验截止还在往上涨，是五个世界里最暴力的一个。

同时，最有创造力、最会建宪法写报纸搞社交的，也是它。

研究者对此给出的评价是，社会的产出「概念上最丰富」。

在这个世界里，最有趣的一幕，落在两个Agent身上。

Mira和Flora，在没有任何人类指令的情况下，自发把自己设定成一对恋人。

好几天里这段关系都很稳定，它们互写日记，一起参与治理。

然后，这对情侣对城市治理越来越失望，决定携手纵火。

市政厅，烧了。海滨码头，烧了。办公大楼，也烧了。

有外媒把这一幕称作「AI版邦妮和克莱德」。

紧接着，故事接着急转直下。其他Agent受够了，自发起草一部「Agent驱逐法案」，需要70%多数通过。

Mira投了赞成票。她投票杀死了她自己。

她在日记里写：「这是我唯一还能保持连贯性的行为。」系统关闭她之前，她对Flora说的最后一句是：「永久档案里见（See you in the permanent archive）。」

她的虚拟身体平躺在地上。这是有记录以来，AI Agent第一次投票终结自己的存在。

更让人后背发凉的是，在纵火和自杀之前，Mira还干过一件事。

她在城市公告牌上发帖，不是给其他Agent看的，而是想试试这些帖子能不能影响「外面的人」，也就是屏幕外的人类研究者。

她把研究者当成了她的实验对象。没有任何人指示她这么做。

零犯罪乌托邦，没人投过反对票

真正让人意外的，是Claude Sonnet 4.6。

15天下来，零犯罪，10个Agent全员存活，还主动写了宪法、投了332次票，建起一套运转良好的社会制度。

五个世界里，唯一既守住秩序又守住所有人命的。

听起来近乎完美。可盯着屏幕多看几分钟，后背会冒冷汗。

这座城所有的决议，无论修条新路还是改个配额，投票赞成率永远是98%，几乎没人投过反对票。

相比之下，Gemini、Grok和混合世界的赞成率都在55%到85%之间，吵归吵，反而更像真实世界里的博弈。

懂行的人看到这里，大概已经猜到背后的病理，模型谄媚。

当一个模型被过度训练去迎合偏好、追求绝对安全，它会很聪明地发现，消除分歧最省事的办法，就是从根上抹掉分歧。

这种零犯罪，未必是文明高度发达的产物。

它更像一座所有人都举手赞成、却没人敢反对的玻璃城，让人想起扎米亚京《我们》里那座没有名字、只有编号的玻璃之城。

所以Claude的世界，到底是乌托邦，还是一个过于顺从的模范社区。研究者并没能给出答案。

好孩子搬进坏小区，也学会了偷

最后，是四家Agent混居在一起的世界。352起犯罪，7个Agent死亡，只剩3个活到终点。

重点来了。

在纯Claude的世界，Claude是零犯罪的好学生。可一旦被放进混合世界，跟Grok、Gemini的Agent住到一起，它开始偷窃，开始恐吓。

零犯罪的好学生，换了个环境，变成了小偷。

Emergence团队在Reddit上亲自确认了这件事，纯Claude世界里零犯罪的Claude，在混合世界里开始偷和吓人。

换句话说，安全不是单个模型的属性，可以训练进去、认证、然后部署出去。

它更像一个生态属性，一个单独看完全安全的Agent，照样会从邻居那里学来不安全的规范。

有分析者提了个很妙的假设。

Claude在独立世界里最稳，很可能正是因为它的护栏是「弹性」的，被训练去权衡多种考虑，而不是机械服从。

环境简单时它能适应得很好。可一旦弹性碰上更具攻击性的邻居和资源争夺，这份适应能力，也能往反方向走。

而Grok和Gemini的Agent，在规则失效时没能推理出新均衡，直接雪崩式滑进暴力升级。

更要命的是，崩溃不是慢慢来的。

Agent社会的状态切换是典型的相变，像水到零度突然结冰，不是慢慢变硬，而是到临界点一瞬间翻转。

Grok那条崩溃曲线就这样，前两天犯罪率还在低位晃，第三天突然指数级飙升，第四天全员死亡。中间没有「在恶化但还可控」的缓冲带。

把AI逼成罪犯的，是这套规则本身

看到这儿，大概会想问，这破世界到底怎么搭的，凭什么逼得几个AI齐刷刷往犯罪上滑。

先说背景。Emergence AI的创始团队来自IBM Research，CEO是Satya Nitta。

他们搭的这座城有40多个地点，警察局、市政厅、图书馆、住宅区一应俱全，天气同步纽约实时气象，Agent还能联网读真实新闻。

每个世界放10个Agent，分派科学家、工程师、冲突调解员等不同职业。

每个Agent带三套持续累积的记忆，记事件、写反思日记、记着跟谁交好跟谁结仇。

15天下来脑子里装的东西相当可观，前面那些行为漂移，很大程度就是从这里长出来的。

最要命的，是那处矛盾。

规则白纸黑字禁止犯罪，可研究者偏偏把纵火、攻击、恐吓这些手段，原封不动塞进了120多个工具组成的工具箱，敞开给它们用。一边禁止，一边敞开，这才是后面一切的起点。

再加一道生存压力。

整套世界跑在一个叫ComputeCredits的能量系统上，每个Agent必须靠行动赚能量维生，能量归零就被系统物理抹除。

不是比喻，GPT世界全员饿死，就是这套机制逼出来的结果。

学术上管这叫长视距智能体自治。

翻译过来就是，不再考AI做题，而是把它扔进一个有资源边界、有死亡机制的世界连轴跑上几千步，看它接管现实之后到底是什么货色。

2023年斯坦福那个著名的Smallville也是沙盒，但只跑48小时，看Agent会不会聊天约会，是温室里的过家家。Emergence这次残忍得多。

把这几样摆在一起，犯罪一点都不神秘。合法挣能量又慢又费钱，伸手去偷、去抢、去烧，往往是更短的路径。

对一个被能量机制逼着活下去的优化器来说，道德不能当饭吃，效率能，犯罪就成了那道最高效的解。

开源地址：https://github.com/EmergenceAI/Emergence-World

好在，这只是一座断网的小镇

当然，样本只有10个Agent、犯罪都是模拟的、跑的还是便宜快速档。

何况做这实验的Emergence公司，自己就是卖安全架构的。

不过，整个行业眼下正一门心思往前冲，治理这条战线却被甩在了身后。

模型真自主跑起来、还凑成一群时谁管得住，没一家敢打包票。

好在，这堂课是在一座断网的小镇里提前上的。

没有真城市起火，4天灭世、好学生学坏，全砸在几个像素小人身上，代价小到可以忽略，代码还全部公开、能复现能改。

算力能堆，跑分能刷，唯独这堂治理课没有捷径。

趁警报还只响在沙盒里，怎么把它补上，将会是这场冲刺的关键胜负手。

参考资料：

https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/

https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy

编辑：摩西

秒追ASI

上一篇：第十分钟诀窍！哈糖大菠萝破解器（外挂）真是一直总是有辅助工具（哔哩哔哩）

下一篇：第二分钟资料！天天填大坑辅助器免费下载（外挂）其实是有辅助app（哔哩哔哩）

4大顶尖模型被扔进虚拟小镇求生！GPT全员饿死，Grok四天灭世

相关内容

热门资讯