《科创板日报》6月6日讯(编辑 宋子乔)6月6日上午,在2025北京智源大会上,北京智源人工智能研究院发布了“悟界”系列大模型,宣布围绕物理AGI(通用人工智能)所做的大模型最新科研成果和布局。“悟界”系列大模型目前包含:全球首个原生多模态世界模型“悟界•Emu3”、全球首个脑科学多模态通用基础模型“悟界•见微Brainμ”、具身大脑RoboBrain 2.0、全原子微观生命模型OpenComplex2。
其中,原生多模态世界模型Emu3于2024年10月发布,基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性。 其核心能力在于多模态统一理解与生成,它通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。该模型支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。
何谓世界模型?
从通俗角度来看, 世界模型可以被理解为,让AI像人类一样认知、理解世界并进行推理的工具。人类通过五感获取外界信息,大脑会将这些信息抽象简化为理想化的基本元素,构建成一个关于世界的“模型”,并在这个模型上进行推理和预测,以此来指导我们的行动。人工智能领域的世界模型,就是让机器学习算法去构建这样一个关于世界的“模型”。
被誉为“AI教母”的知名人工智能专家、斯坦福大学教授李飞飞,近日与硅谷顶级风险投资机构a16z的两位合伙人——马丁•卡萨多与埃里克•托伯格展开了一场深度对话。在这场对话中,李飞飞便探讨了“世界模型”的概念——这些AI系统不仅能理解和推理文字信息,还能理解与推理物理世界(尤其是3D世界)的运作规律。
可以说, 打造强大的世界模型是人类通往AGI的必经之路。
值得注意的是,目前的应用端,布局世界模型最积极的是造车新势力, 在小鹏、理想、华为、地平线等各个车企和平台供应商的展示中都在强调“世界模型”。
在智驾领域,世界模型代表着智能驾驶系统对物理世界的数字化理解与预测能力。各企业在智能驾驶上的竞争从过去拼车端算力和配置,已经逐渐演进到比拼云端构建的世界模型(一个能够理解物理世界规则的虚拟世界)的能力。
华泰证券认为这或将持续提升车载的芯片算力以及传感器的精度,对算法公司和主机厂技术研发能力也提出了新的要求。亿欧智库的报告则称, 世界模型通过云端训练+车端蒸馅提升泛化能力,但其规模化落地仍受限于算力成本与数据质量。
(科创板日报 宋子乔)