在阅读文章前,辛苦您点下“关注”,方便讨论和分享。作者定会不负众望,按时按量创作出更优质的内容
文 |小戎
哈喽,大家好,小戎这篇评论,主要分析AI圈“世界模型”混战:大佬们定义各不同,但都认它是AGI关键,大语言模型的时代要翻篇啦。
现在AI圈聊“世界模型”,比小区大妈讨论养生还热闹——你说喝枸杞好,他说泡黄芪妙,最后发现大家都在说“要健康”,但手里的保温杯装着完全不同的东西。
世界模型
OpenAI举着Sora生成的视频喊:“看!这就是世界模拟器!”杨立昆当场泼冷水:“别扯了,这就是像素级幻觉,真正的AI大脑得会预判‘下一步会咋样’,不是画PPT。”谷歌更直接,推Genie3说能上手操作才算数;李飞飞则慢悠悠补刀:“先把3D空间建明白再说。”
这群吵到上热搜的大佬,居然有个神奇共识:大语言模型(LLM)快到天花板了,想搞出真人工智能(AGI),还得看世界模型。
可问题来了,“世界模型”这词儿现在比万能胶还粘——搞自动驾驶的贴它,做游戏建模的蹭它,连搞文字识别的都凑过来喊“我们也是世界模型分支”,这哪是技术概念,分明是个大筐,啥都往里装,概念通胀比CPI涨得还快。
扒开吵翻天的表象,其实就两派在battle,杨立昆是“极简派”,觉得AI不用画画面,像玩游戏时的“预判挂”就行——看见车开过来,不用看清车牌号,直接算出“危险,快躲”,主打一个高效决策。
他的模型连树叶纹理都懒得算,说那是浪费算力,像外卖员不会纠结顾客家门口的瓷砖花色,准时送到才是王道。
OpenAI和谷歌是“写实派”,信奉“能造出来才算懂”,Sora靠看几十亿条视频,记住了“人走路腿交替”“杯子掉地上会碎”,但缺点是只会放电影,问它“踢一脚球会咋飞”就卡壳。
谷歌的Genie3就进阶了,能让你操控方向键在虚拟场景里开车,总算有点“玩游戏”的意思,而不是单纯看片。
李飞飞的路线更硬核,直接搞3D建模。
世界模型是AGI希望,还是新的割韭菜话术?
她团队的Marble不用传统网格,而是用无数彩色小斑点拼出3D世界——有点像用乐高积木搭城堡,精度高到能导出到游戏引擎里,虽然现在还远没到“自由创造”的程度,但方向很明确:先把物理世界的架子搭起来。
热潮背后全是套路,大语言模型的蛋糕被OpenAI这些巨头分完了,后来者总得喊个新口号找投资。
“视频生成工具”听着像小作坊,改成“世界模型”瞬间就成了“AGI潜力股”,这套路和奶茶店把“珍珠奶茶”包装成“元气爆珠能量饮”如出一辙。
不过吵归吵,大家的方向没歪,以前LLM学的是“人类说的话”,知道“苹果”和“红、甜”相关,但从没见过真苹果,更不懂苹果掉下来会砸脑袋,现在世界模型就是要让AI“亲自体验”世界,从“听别人说”变成“自己看、自己摸”。
结语
只是真心希望,在真正的“世界模型”出现前,这个词别先被玩坏了。毕竟再香的概念,天天乱炖也会变成黑暗料理。