首页  >  全球资讯 >  深度分析 >  硅谷顶级资金集体押注的“世界模型”到底是什么?
硅谷顶级资金集体押注的“世界模型”到底是什么?
林天心 来源: 2026-03-24 02:43
        
重点摘要
像游戏但不止于游戏,这项80年前提出的构想,正在让机器人学会买菜做饭,让AI真正理解现实如何运转。

一张图片,一段文字,几秒钟之后,一个可以自由探索的虚拟世界就出现在眼前。
如果输入的是一句日常描述,它会生成一个逼真的场景;如果给它的是一幅修拉的点彩画,下一秒,就能走进那个周末午后的公园,阳光从密密麻麻的色点间洒落,一切都是点彩派的样子。
从谷歌那次名为“精灵计划”的演示来看,一个自然浮现的问题是:这玩意儿到底算什么?看起来像个电子游戏,但仔细想想又不太对——游戏需要有人设计场景、搭建模型,而这个东西,似乎是自己“理解”了世界该怎么运转。
谷歌的人管这叫“世界模型”。一个听起来有点抽象的词,但他们的解释很具体:未来的人形机器人要自己出门买菜、回家做饭,自动驾驶汽车要在乡间小路上穿行,这些事儿要想成真,AI首先得理解物理世界是怎么运作的。
这个想法其实并不新鲜。1943年,有位叫肯尼斯·克雷克的苏格兰心理学家就写过一本书,说动物的大脑里内置了一个关于外部世界的“小模型”。在做一件事之前,动物会用这个模型先在脑子里过一遍——这个行为会有什么后果?会不会有危险?没有这个能力,生物就只能活在当下,疼了就躲,饿了就吃,仅此而已。
上世纪90年代,让AI拥有这种能力曾经是一个热门研究方向。但后来大型语言模型横空出世,所有人都在讨论怎么让机器学会说话,“理解世界”这件事反而被搁置了。直到最近,聚光灯才重新打回来。
最直接的路径是从视频入手。想要生成一段连贯的视频,模型首先得理解什么是连贯——如果每一帧的物理规则都不一样,画面早就乱套了。这类模型还能脑补出画面之外的东西:给它一张迷宫图,它能画出一条穿越路线;给你一张双手握着罐子的照片,它能推算出拧开盖子需要的动作。“精灵计划”就是这条路走到极致的产物。
它的实用价值很直接。假设想训练一个机器人店员,让它学会在真实的便利店里工作。从现实世界采集数据?成本高得吓人。但如果有一个足够逼真的模拟环境,机器人就可以在里面反复练习,直到熟练掌握。这就是世界模型的意义——让AI在虚拟世界里学会在现实中生存。
但视频也有它的软肋。摄像头拍不到商店后面那台坏掉的冰柜,也记录不了鲜鱼腐烂的气味。更麻烦的是,生成的货架通道是完整的,但隔壁那条通道,在走进去之前,对模型来说根本不存在。这种“按需生成”的方式,让多人同时在一个复杂环境里互动变得异常困难。
所以有人换了个思路:与其生成2D视频,不如直接构建完整的3D世界。
斯坦福的一个研究团队正在推进这件事,他们管这叫“空间智能”。在他们看来,真正的世界模型必须同时满足三个条件:可交互、能理解多模态输入、内部逻辑自洽。视频生成器在前两项上表现不错,但在“逻辑自洽”上总是栽跟头——“精灵计划”最多只能稳定运行60秒,之后画面就开始出现裂缝。
一家叫World Labs的创业公司已经做出了一个叫Marble的模型。它能一次性生成一个内部逻辑完整的3D世界,而不是边走边补。这意味着多个用户可以同时进入同一个空间,转身走进一间屋子,身后不会凭空消失。这家公司正在向建筑师推销这个工具——以后设计师可以在虚拟空间里走完整条动线,再决定要不要把方案送去3D打印。
但这仍然不够。有人认为,把注意力全放在物理空间上反而是一种局限。很多AI未来要面对的是“虚拟迷宫”——企业的人力资源系统,厚厚一沓法律文件,复杂的业务流程。它们同样需要一套模型来理解规则、预判后果。


2022年以来,一种叫“联合嵌入预测架构”的路径一直在推进。去年11月,有人离开大厂全职投入这个方向,新公司已经和一家健康科技初创企业展开合作。他们的目标很明确:让AI学会思考“为了完成这个任务,该怎么做”,而不是被动地等待指令。
当然,也有更激进的观点:也许这些复杂的探索都是多余的。如果现在的生成式AI已经能在现实中发挥作用,那它们内部是不是早就内置了某种世界模型?
2023年的一项研究为这个观点提供了佐证。研究者训练了一个模型,输入的是奥赛罗棋的走法列表。模型从未见过棋盘,也不知道规则,但训练结束后,它的神经网络里竟然出现了对棋盘状态的清晰表征——研究者甚至能找到存储每一枚棋子颜色的特定神经元。调整这些神经元,模型的“棋感”也会随之改变。
更大的语言模型内部,可能藏着更复杂的“世界地图”。一家AI实验室在研究自家模型时,发现了一簇簇人工神经元,有的对应“内疚感”,有的对应“金门大桥”。对这些神经元做微调,模型的行为也会跟着变化。这说明,它们并不仅仅是在拼凑词语,而是对现实世界有了一套自洽的理解。
但也有反对的声音。批评者说,大型语言模型不过是“在黑暗中码字的工匠”。能用语言描述世界,不代表真的理解世界——就像一个人读遍了某个国家的游记,真到了那里,还是会发现书本没能传递的东西。
写到这里,很容易想起那个修拉的点彩画。走进一幅画的感觉很奇妙,知道那是虚构的,但又觉得它足够真实。也许对AI来说,理解世界也是这样——它不需要成为世界本身,只需要构建一个足够好的模型,让那些真正重要的细节,都能在模型里找到自己的位置。
从“精灵计划”的演示来看,一个值得反复琢磨的问题是:在采取实际行动之前,生物会先用大脑里的模型做推演——这是那位苏格兰心理学家八十年前写下的句子。现在看来,要推开现实世界那扇门的,不只是人类。