世界模型概念入门:一个从心理学烧到 AI 主战场的故事
创始人
2026-06-28 11:38:06
0

作者 | Judy

来源 | IT桔子

图片 | 豆包AI生成

世界模型是眼下 AI 圈最热、却也最让普通人一头雾水的概念。有人说它是让 AI 做梦的能力,有人说它是自动驾驶的仿真器,还有人说它是机器人大脑。

李飞飞、Yann LeCun、OpenAI、Google DeepMind、英伟达,乃至国内阿里、腾讯、华为、车企,各有各的定义。

本文尝试用大白话讲清楚:

世界模型到底想解决什么问题;这些学者和大厂为什么会对它着迷;以及这个概念为什么在名字都没统一的时候,就已经成了产业必争之地。

一、一句话理解:

让 AI 在“脑内沙盘”里预演世界

想象你站在路口准备过马路。

你的眼睛看到绿灯、车辆、行人,大脑会在零点几秒内构建一个微型场景:如果我现在走,那辆车会不会加速?那个骑车的人会不会突然转弯?

你并没有真的走出去,而是在脑子里先把几种可能过了一遍。

心理学家把这种能力叫“心智模型”,AI 研究者则把它叫“世界模型”。

换句话说,世界模型就是机器里的一个“脑内沙盘”。

对自动驾驶来说,它可以生成暴雨、暴雪、异型障碍的虚拟考卷;对机器人来说,它可以让人形机器人在仿真世界里摔上十万次再出门;对游戏和影视公司来说,它可能是一个可以无限探索的平行宇宙。

2026 年,“世界模型”这个词出现在科技报道里的频率,已经超过了它的定义清晰度。

阿里做了 Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld,分别指向语言世界、虚拟世界和物理世界;腾讯的 HY-World 2.0 强调 3D 可编辑世界;蔚来、小鹏、理想更愿意说“驾驶世界模型”或“世界行为模型”;华为、百度在公开材料里甚至不常单独使用这个词。

命名的混乱,让这个概念看起来像一个筐,什么都能往里装。

但所有叫法背后有一个共同的内核:

让机器在真正行动之前,先在内部建立一个可推演、可复盘的环境。这个环境可以是像素、可以是三维结构、可以是物理参数、也可以是抽象状态。目标都是降低对真实数据的无限依赖,把真实世界压缩成能够无限生成、无限犯错、无限重来的数据引擎。

名字不统一,恰恰说明世界模型正处在从学术概念向产业基础设施过渡的早期阶段。

二、思想的源头:

一位二战心理学家和几位 AI 先驱

2.1 Kenneth Craik:最早说出“脑内小模型”的人

世界模型的思想,比深度学习早了大半个世纪。1943 年,苏格兰心理学家 Kenneth Craik 在《解释的本质》一书中提出,人类大脑会构建现实的“小规模模型”,用来预测和理解外部事件。

Craik 当时只有 31 岁,是剑桥大学心理学实验室的学者,二战期间还在英国从事应用心理学研究。

他的书出版两年后,他就因自行车事故去世,年仅 33 岁。

但这个想法却被保留了下来:人类不需要完整复刻世界,只需要一个足够好用的内部模型,就能在行动前进行预演。

这个观点和今天 AI 世界模型的核心几乎一致。机器也不用记住世界每一个细节,而是学习世界运行的规律,并在需要时推演未来。

Craik 之后,1980 年代英国心理学家 Philip Johnson-Laird 进一步把这套思想系统化,证明人类大量推理其实都是在操控脑内的“心智模型”。他长期任教于普林斯顿和剑桥,是认知科学领域的重要人物。

2.2 Marvin Minsky:想让机器拥有常识框架的人

人工智能领域同样早有呼应。1960 年代,Marvin Minsky 在麻省理工学院提出“框架理论”。

他是 MIT AI 实验室的联合创始人,1969 年图灵奖得主,常被看作人工智能学科的奠基人之一。

框架理论试图用结构化的知识框架来捕捉人类关于世界的常识:

进门要先找门把手,餐厅里通常有桌椅,物体受重力会下落。

Minsky 想做的,正是今天世界模型仍未完成的事——让机器拥有一个结构化、可推演的世界常识库。

2.3 David Ha 与 Jürgen Schmidhuber:把世界模型带回深度学习主流

强化学习领域则从另一条路接近了同一个目标。

2018 年,David Ha 与 Jürgen Schmidhuber 在 NeurIPS 发表的论文《Recurrent World Models Facilitate Policy Evolution》,把“世界模型”这个术语重新带回了深度学习主流。

David Ha 当时任职于 Google Brain,后来成为独立研究者。他的工作风格偏工程化,善于用简洁的架构做出惊艳的 Demo。

Jürgen Schmidhuber 是瑞士 AI 实验室 IDSIA 的联合创始人,长短期记忆网络 LSTM 的发明者之一,在 AI 领域以敢言和独立见解著称。他有时被称为“现代 AI 之父”,虽然这个称号有争议,但他的学术影响力毋庸置疑。

他们的架构很简洁:

用 VAE 把高维画面压缩成低维潜在向量,用 RNN 学习这些向量随时间的变化,再用一个简单的控制器在“想象”中训练策略。

智能体先在学到的世界模型里做梦,再把策略迁移回真实环境。

这篇论文入选了 NeurIPS 口头报告,直接启发了后来的 Dreamer 系列,也把“世界模型”从一个心理学概念变成了深度学习里的工程目标。

三、学者们眼中的世界模型

3.1 Yann LeCun:不要只会生成视频,要理解物理

Yann LeCun (杨立昆)是法国人,纽约大学教授,Meta 首席 AI 科学家。

他是卷积神经网络 CNN 的发明者之一,2018 年与李飞飞的博士导师 Geoffrey Hinton、Yoshua Bengio 共同获得图灵奖,三人被誉为“深度学习三巨头”。

LeCun 一直对当前大语言模型的路径持批评态度,他认为仅靠预测下一个词无法产生真正的智能。

2022 年,他在一篇名为《A Path Towards Autonomous Machine Intelligence》的文章中提出,真正的智能需要一个可配置的预测世界模型。

目标不是生成文字或画面,而是理解物理世界的规律,并预测行动后果。他甚至批评继续堆叠大语言模型是“胡扯”,认为智能的核心在于学到真实世界的物理结构。

JEPA 是这条路线的技术载体。JEPA 全称 Joint Embedding Predictive Architecture,即“联合嵌入预测架构”。

与在像素空间预测下一帧不同,JEPA 在抽象的表示空间里模拟世界状态的变化。

打个比方:视频生成模型是在画下一幅画,JEPA 则是在心里“感觉”接下来会发生什么。

2023 年的 I-JEPA、2024 年的 V-JEPA、2025 年的 LeJEPA、2026 年的 LeWorldModel,构成了一个持续演进的体系。

LeCun 还引入了“系统 1 / 系统 2”的概念:系统 1 是直觉性快速反应,系统 2 是调用世界模型进行深思熟虑的推理与规划。

最新理论工作甚至证明,在某些条件下,JEPA 学到的表示能够与真实物理变量建立线性对应关系,即模型在数学意义上学到了物理结构,而不只是一种好用的编码。

3.2 李飞飞:用“行动—观察”闭环给世界模型分类

李飞飞是斯坦福大学计算机科学教授,ImageNet 数据集的主要创建者。ImageNet 在 2012 年催生了深度学习革命,她也因此被称为“AI 教母”。

她曾任 Google Cloud AI 首席科学家,2023 年创立 World Labs,专注于空间智能和 3D 世界模型。2024 年,她因推动 AI 民主化和医疗等领域的应用获得多项荣誉,是当今 AI 领域最具影响力的华人科学家之一。

2026 年 6 月,李飞飞与 World Labs 团队发布了一篇被广泛转载的文章,试图给混乱的世界模型概念建立分类学。

她援引强化学习中的 POMDP,也就是“部分可观测马尔可夫决策过程”。

这个概念听起来复杂,其实描述的是一个很简单的循环:智能体采取行动,行动改变世界状态,智能体获得观测,再依据观测采取下一步行动。

她指出,所有被称为世界模型的系统,本质上都是这个循环在不同方向上的投影,每一类只输出循环中的一个片段。

据此,她把世界模型分为三类。

第一类是渲染器,输出观测,即供人眼观看的像素,典型代表是视频生成模型和 Google Genie 3,优化目标是视觉保真度。

第二类是模拟器,输出状态,即在几何、物理、动力学层面忠实的世界表征,典型代表是 NVIDIA Omniverse 和 World Labs 的 Marble,优化目标是结构准确性。

第三类是规划器,输出行动,即给定观测和目标后回答“下一步该做什么”,典型代表是 VLA 和 World Action Models。

李飞飞认为,这三类能力的底层依赖的是同一种知识,最终趋势是走向统一的世界模型。

3.3 清华 FIB-Lab:世界模型只有两类,理解世界或预测未来

清华大学 FIB-Lab 是一个长期研究通用人工智能、具身智能和机器人学习的团队。FIB 通常被理解为“未来智能与大脑”相关实验室,隶属于清华大学智能产业研究院。

该团队在世界模型和机器人领域发表过大量综述和论文,是国内研究这一方向的重要力量之一。

2026 年,他们发布了综述《Understanding World or Predicting Future: A Comprehensive Survey of World Models》,用另一种方式切分了这个领域。

他们把世界模型的核心功能分为两大类:理解世界和预测未来。

理解世界强调构建外部环境的隐式表征,以支持决策,代表是 Dreamer 系列和基于大语言模型的世界知识。

预测未来强调显式生成未来状态,典型是 Sora、Genie 3、Cosmos 等视频或 3D 环境生成模型。

这个分类的好处是更贴近工程实践:前者服务强化学习和决策,后者服务生成与仿真。

3.4 北大 OpenWorldLib:给世界模型做一个标准化工具箱

2026 年 4 月,北京大学联合快手等机构发布了 OpenWorldLib。北京大学是国内人工智能基础研究重镇,拥有机器感知与智能教育部重点实验室等机构;快手则是国内短视频巨头,近年来在大模型和多模态生成上投入颇多。

两者联合发布 OpenWorldLib,显示出学术界和产业界都开始意识到世界模型需要统一标准和可复用组件。

OpenWorldLib 首次尝试给世界模型一个标准化定义:一个以感知为核心、具备交互和长期记忆能力的模型或框架,用于理解和预测复杂世界。

他们批评把世界模型简单等同于“预测下一帧”过于狭隘,认为真正的世界模型必须体现对物理规律的真正理解。

OpenWorldLib 把世界模型拆成五个核心模块:操作员、合成、推理、表示、记忆,再由流水线模块统一协调。

这个框架更像一个工具箱,目标是让不同研究团队能够像拼乐高一样组合模块。

四、大厂们眼中的世界模型

4.1 OpenAI:Sora 是“世界模拟器”

OpenAI 是当前全球最有影响力的 AI 公司之一。它以 GPT 系列大语言模型和 ChatGPT 闻名,2024 年发布 Sora 后再次引发全球对视频生成和世界模拟的关注。

2024 年 2 月,OpenAI 发布 Sora 的技术报告,标题就叫《Video Generation Models as World Simulators》,直接把视频生成模型定位成世界模拟器。Sora 不依赖显式的 3D 建模或物理引擎,而是在大规模视频数据上训练生成模型,使其自发涌现出 3D 一致性、长期一致性、物体持久性、简单世界交互等能力。

OpenAI 认为,视频生成模型的大规模扩展是构建物理世界通用模拟器的一条极具前景的道路。

但 Sora 的局限也很明显:无法准确模拟玻璃破碎等基本物理过程,长时间样本中会出现不一致,物体可能不受控制地出现。所以它更多是一个方向性宣言,而不是成熟定义。

4.2 Google DeepMind:Genie 3 是实时可交互的通用世界模型

Google DeepMind 由 Google 在 2014 年收购英国 AI 公司 DeepMind 后组建,Demis Hassabis 是联合创始人兼 CEO。

DeepMind 曾开发出 AlphaGo、AlphaFold 等里程碑式系统,是全球 AI 研究的前沿阵地之一。Demis Hassabis 本人是计算机科学家、神经科学家,也是游戏设计师,长期关注通用人工智能。

2025 年 8 月,Google DeepMind 发布 Genie 3,官方定义是“首个实时、可交互的逼真世界模型”。

它可以根据简单文本描述生成可探索的 3D 环境,运行帧率达到 20-24 fps,支持角色控制、可提示的世界事件和长达一分钟的交互记忆。Genie 3 采用自回归方式逐帧生成,基于 Google Maps 街景数据锚定现实世界,被定位为通向 AGI 的关键里程碑。

4.3 英伟达:Cosmos 是物理 AI 的“世界基础模型”

英伟达由黄仁勋、Chris Malachowsky 和 Curtis Priem 在 1993 年创立,黄仁勋长期担任 CEO。公司最初以图形芯片 GPU 起家,过去十年因为 AI 训练对算力的爆炸式需求,成为全球 AI 基础设施的核心供应商。

黄仁勋近年来频繁提出“物理 AI”和“AI 的下一波是机器人”等判断,英伟达也持续推出面向机器人、自动驾驶和仿真的软硬件平台。

2025 年 1 月,英伟达发布 Cosmos,定位为“世界基础模型平台”。它不是单一模型,而是一系列可以预测和生成虚拟环境未来状态的物理感知视频模型,分为 Nano、Super、Ultra 三个等级,基于 2000 万小时真实世界数据训练。

Cosmos 的野心是成为物理 AI 的底层基础设施,服务机器人、自动驾驶、工业仿真等场景。

英伟达还将其开源,允许商业使用。

4.4 国内大厂:不叫世界模型,也在做世界模型

国内企业很少在公开材料中给出哲学化的定义,而是直接落到产品和场景。

阿里的三款产品分别覆盖语言世界模拟、虚拟世界生成和机器人物理世界;

腾讯 HY-World 2.0 聚焦 3D 可编辑世界;字节 Seed 世界模型瞄准年底达到 Genie 3 的 SOTA 水平;

华为盘古大模型智能驾驶版强调物理规律学习与闭环仿真;百度 Apollo ADFM 把世界模型能力融入自动驾驶大模型;小米 OneVL 试图把 VLA 与世界模型统一。

车企里,蔚来 NWM、理想重建加生成世界模型、小鹏 X-World、吉利 WAM、比亚迪预研、长城 VLA 加世界模型,核心用途都是端到端智驾训练和长尾场景生成。

关于这部分的详细展开,可以看IT 桔子的文章《没有统一名字的战争:国内各家大厂的世界模型版图》。

五、三条技术路线:

画画、心算、搭积木

从工程角度看,当前世界模型大致有三条主要技术路线,可以用三种比喻来理解。

第一条是“画画”路线,也就是生成式视频模型。Sora、Genie 3、Cosmos、可灵、Pika 都属于这一类。核心能力是在像素空间生成未来帧,优势是视觉真实感强、数据门槛低,普通人一眼就能看懂。劣势是物理一致性弱,画面看久了会发现物体变形、重力失效、时间线混乱。

第二条是“心算”路线,以 LeCun 的 JEPA 和 Ha & Schmidhuber 的 RNN 世界模型为代表。核心思想是不预测像素,而是预测抽象表征。优势是效率高、对物理结构的学习更稳定,劣势是表征空间的可解释性差、工程落地周期长。它更像人类运动员的直觉:不用真的把动作在脑子里逐帧放电影,也能凭身体感觉预判球的落点。

第三条是“搭积木”路线,以 NVIDIA Omniverse、World Labs Marble、腾讯 HY-World 为代表。核心思想是直接生成带有几何、物理、动力学属性的三维环境。优势是精确可控、可编辑、可验证,劣势是数据稀缺、计算成本高、泛化能力受限。它更像工程师的 CAD 软件,可以精确测量、反复调整,但离自然世界还有距离。

三条路线目前各有阵地,但边界正在模糊。视频生成模型开始加入物理约束,3D 模拟器开始引入生成式能力,JEPA 架构开始与 VLA 融合成 WAM。李飞飞预言的统一世界模型,正是三者融合的结果。

六、World Action Model:

从“看世界”到“动手做”

2026 年 5 月,复旦 OpenMOSS 团队联合多家机构发布了 WAM 综述,正式提出 World Action Models 这一范式。

复旦 OpenMOSS 是国内最早推动大模型开源生态的团队之一,Mooss 系列模型在中文社区有较高知名度。

WAM 的核心定义是:未来状态预测和动作生成必须在同一个策略内联合学习,而不是先训一个 VLA 再外挂一个世界模型当辅助。

用通俗方式对比:VLA 是“看到画面、听懂指令,然后做出动作”;世界模型是“知道当前状态和动作,能想象出下一帧画面”;WAM 则是“看到画面、听懂指令,同时想象出下一帧画面并做出动作”。

这三者合在一起,才是机器人真正需要的“知行合一”的能力。

WAM 分为 Cascaded 和 Joint 两种架构。

Cascaded 先生成未来帧再解码动作,工程上好搭建但延迟高、错误容易传导。Joint 用单一模型同时输出未来和动作,理论上更鲁棒但训练目标设计复杂。

英伟达 Jim Fan 在 2026 年红杉 AI Ascent 大会上甚至断言“VLA 已死,世界动作模型是未来”。Jim Fan 是英伟达高级研究科学家,GEAR 团队负责人,研究领域涵盖机器人、仿真和具身智能。

虽然这句话争议很大,但足以说明这个方向的热度。

七、产业框架:

三层结构已经成型

世界模型的产业链正在从论文和 Demo 走向分层基础设施。可以把它想象成盖房子:有人挖矿炼钢,有人生产预制板,有人在上面盖住宅、商场和工厂。

上游是基础支撑层,包括高精度数据采集、算力服务和传感器硬件。

数据采集涉及高精地图、空间扫描、视频采集、遥操作等;算力服务以 GPU 和云服务器为核心;传感器硬件包括激光雷达、摄像头、IMU 等。英伟达凭借 GPU 在这一层占据隐形霸主地位,几乎所有世界模型训练都离不开其算力支持。

成本是这一层的核心痛点:训练千亿级参数的世界模型需要数千个 GPU,单次训练成本可达数百万美元。

中游是技术平台层,分为通用型平台和垂直型平台。

通用型平台跨行业提供通用能力,代表是英伟达 Omniverse、商汤开悟、华为盘古、阿里通义系列。垂直型平台聚焦特定行业,如自动驾驶世界模型、建筑世界模型、具身智能世界模型。平台型企业正在通过生态整合占据主导,预计到 2030 年可能占据产业链 50% 以上的市场份额。

下游是场景应用层,覆盖自动驾驶、具身智能、智能建造、游戏娱乐、空间服务、医疗模拟、气候预测等领域。

汽车、电子、医疗被认为贡献了当前行业 60% 以上的营收。自动驾驶是应用成熟度最高的场景,几乎所有主流车企都已把世界模型纳入研发核心流程;具身智能是最被看好的新兴方向,工业机器人使用世界模型辅助训练的比例已经超过 60%。

八、为什么概念不统一反而是好事

世界模型概念的混乱,常常让外界觉得这是一个被炒作出来的风口。

但从产业史的角度看,概念不统一往往是技术革命早期的常态。

云计算早期有 IaaS、PaaS、SaaS 之争,大数据早期有 Hadoop、NoSQL、数据仓库之争,人工智能早期甚至有符号主义、连接主义、行为主义之争。命名的分歧,反映的是不同群体从不同角度切入同一个宏大问题的过程。

当前世界模型的分歧,本质上是对“世界”到底应该被压缩成什么形态的争论。

做视频生成的人认为世界是像素序列;做 3D 引擎的人认为世界是几何和物理;做自动驾驶的人认为世界是交通规则和驾驶行为;做机器人的人认为世界是动作后果。

每一种压缩方式都对应不同的数据、算力和应用场景。在产业早期,这种分歧是必要的,它允许不同路线并行试错。

但分歧之下,目标已经收敛。

无论是 LeCun 的 JEPA、李飞飞的 POMDP 闭环、Sora 的视频生成、Genie 3 的 3D 交互,还是国内大厂的各类产品,最终都指向同一个能力:让机器拥有一个可推演、可复盘、可泛化的内部世界,从而在现实世界中行动得更安全、更高效、更通用。

语言模型赋予了机器谈论世界的能力,世界模型则试图赋予机器理解、想象、推理并与世界交互的能力。

概念会统一,但那将是格局尘埃落定之后的事。在此之前,命名的混乱恰恰是世界模型进入主战场的标志。

相关内容

热门资讯

马斯克获准收购初创公司Mesh... 6 月 27 日消息,据彭博社今天报道,埃隆 · 马斯克已获得美国联邦贸易委员会(FTC)批准,收购...
原创 小... 小米数字系列今年一口气推出了好几款机型,直接把大家看花了眼。而最近有不少米粉纠结小米17 Max和小...
拟收购光模块公司,马斯克也要站... 来源:第一财经 Mesh公司的光通信技术被认为或能够为SpaceX推进太空算力战略提供助力。 继收购...
世界模型概念入门:一个从心理学... 作者 | Judy 来源 | IT桔子 图片 | 豆包AI生成 世界模型是眼下 AI 圈最热、却也最...
中新网评:WPS别让6.78亿... 北京6月26日电(记者 查志远)把用户的C盘当“垃圾场”,这不只是技术瑕疵,更是一种傲慢的“背刺”。...
安卓首款阔折叠!三星Galax... 快科技6月27日消息,多家零售商提前曝光了三星Galaxy Z Fold8的上市节奏:该机将于7月2...
鸿晨集团取得方便调节的镜片加工... 国家知识产权局信息显示,江苏鸿晨集团有限公司取得一项名为“一种方便调节的镜片加工用检测装置”的专利,...
法定代表人设在秘书长身上,会长... 2026年6月,中央社会工作部“脱钩行业协会商会乱象自查自纠”专项行动正酣,中国互联网上网服务行业协...
研学观展收获满满!固原市实验小... 6月26日下午,固原市实验小学组织学生走进中国科技馆纪念红军长征胜利90周年科技化成果科普化展览巡展...
成都新增两处无人机“扫码飞”公... 近日,成都环城生态区新增两大“扫码飞”试点空域:中和湿地公园、江家艺苑正式对外开放。叠加此前投用的青...