硅谷顶级资金集体押注的“世界模型”到底是什么？_深度分析_全球资讯

APP下载发布文章注册登录

要闻快讯海客

首页 > 全球资讯 > 深度分析 > 硅谷顶级资金集体押注的“世界模型”到底是什么？

硅谷顶级资金集体押注的“世界模型”到底是什么？

林天心来源: 2026-03-24 02:43

重点摘要

像游戏但不止于游戏，这项80年前提出的构想，正在让机器人学会买菜做饭，让AI真正理解现实如何运转。

一张图片，一段文字，几秒钟之后，一个可以自由探索的虚拟世界就出现在眼前。
如果输入的是一句日常描述，它会生成一个逼真的场景；如果给它的是一幅修拉的点彩画，下一秒，就能走进那个周末午后的公园，阳光从密密麻麻的色点间洒落，一切都是点彩派的样子。
从谷歌那次名为“精灵计划”的演示来看，一个自然浮现的问题是：这玩意儿到底算什么？看起来像个电子游戏，但仔细想想又不太对——游戏需要有人设计场景、搭建模型，而这个东西，似乎是自己“理解”了世界该怎么运转。
谷歌的人管这叫“世界模型”。一个听起来有点抽象的词，但他们的解释很具体：未来的人形机器人要自己出门买菜、回家做饭，自动驾驶汽车要在乡间小路上穿行，这些事儿要想成真，AI首先得理解物理世界是怎么运作的。
这个想法其实并不新鲜。1943年，有位叫肯尼斯·克雷克的苏格兰心理学家就写过一本书，说动物的大脑里内置了一个关于外部世界的“小模型”。在做一件事之前，动物会用这个模型先在脑子里过一遍——这个行为会有什么后果？会不会有危险？没有这个能力，生物就只能活在当下，疼了就躲，饿了就吃，仅此而已。
上世纪90年代，让AI拥有这种能力曾经是一个热门研究方向。但后来大型语言模型横空出世，所有人都在讨论怎么让机器学会说话，“理解世界”这件事反而被搁置了。直到最近，聚光灯才重新打回来。
最直接的路径是从视频入手。想要生成一段连贯的视频，模型首先得理解什么是连贯——如果每一帧的物理规则都不一样，画面早就乱套了。这类模型还能脑补出画面之外的东西：给它一张迷宫图，它能画出一条穿越路线；给你一张双手握着罐子的照片，它能推算出拧开盖子需要的动作。“精灵计划”就是这条路走到极致的产物。
它的实用价值很直接。假设想训练一个机器人店员，让它学会在真实的便利店里工作。从现实世界采集数据？成本高得吓人。但如果有一个足够逼真的模拟环境，机器人就可以在里面反复练习，直到熟练掌握。这就是世界模型的意义——让AI在虚拟世界里学会在现实中生存。
但视频也有它的软肋。摄像头拍不到商店后面那台坏掉的冰柜，也记录不了鲜鱼腐烂的气味。更麻烦的是，生成的货架通道是完整的，但隔壁那条通道，在走进去之前，对模型来说根本不存在。这种“按需生成”的方式，让多人同时在一个复杂环境里互动变得异常困难。
所以有人换了个思路：与其生成2D视频，不如直接构建完整的3D世界。
斯坦福的一个研究团队正在推进这件事，他们管这叫“空间智能”。在他们看来，真正的世界模型必须同时满足三个条件：可交互、能理解多模态输入、内部逻辑自洽。视频生成器在前两项上表现不错，但在“逻辑自洽”上总是栽跟头——“精灵计划”最多只能稳定运行60秒，之后画面就开始出现裂缝。
一家叫World Labs的创业公司已经做出了一个叫Marble的模型。它能一次性生成一个内部逻辑完整的3D世界，而不是边走边补。这意味着多个用户可以同时进入同一个空间，转身走进一间屋子，身后不会凭空消失。这家公司正在向建筑师推销这个工具——以后设计师可以在虚拟空间里走完整条动线，再决定要不要把方案送去3D打印。
但这仍然不够。有人认为，把注意力全放在物理空间上反而是一种局限。很多AI未来要面对的是“虚拟迷宫”——企业的人力资源系统，厚厚一沓法律文件，复杂的业务流程。它们同样需要一套模型来理解规则、预判后果。

2022年以来，一种叫“联合嵌入预测架构”的路径一直在推进。去年11月，有人离开大厂全职投入这个方向，新公司已经和一家健康科技初创企业展开合作。他们的目标很明确：让AI学会思考“为了完成这个任务，该怎么做”，而不是被动地等待指令。
当然，也有更激进的观点：也许这些复杂的探索都是多余的。如果现在的生成式AI已经能在现实中发挥作用，那它们内部是不是早就内置了某种世界模型？
2023年的一项研究为这个观点提供了佐证。研究者训练了一个模型，输入的是奥赛罗棋的走法列表。模型从未见过棋盘，也不知道规则，但训练结束后，它的神经网络里竟然出现了对棋盘状态的清晰表征——研究者甚至能找到存储每一枚棋子颜色的特定神经元。调整这些神经元，模型的“棋感”也会随之改变。
更大的语言模型内部，可能藏着更复杂的“世界地图”。一家AI实验室在研究自家模型时，发现了一簇簇人工神经元，有的对应“内疚感”，有的对应“金门大桥”。对这些神经元做微调，模型的行为也会跟着变化。这说明，它们并不仅仅是在拼凑词语，而是对现实世界有了一套自洽的理解。
但也有反对的声音。批评者说，大型语言模型不过是“在黑暗中码字的工匠”。能用语言描述世界，不代表真的理解世界——就像一个人读遍了某个国家的游记，真到了那里，还是会发现书本没能传递的东西。
写到这里，很容易想起那个修拉的点彩画。走进一幅画的感觉很奇妙，知道那是虚构的，但又觉得它足够真实。也许对AI来说，理解世界也是这样——它不需要成为世界本身，只需要构建一个足够好的模型，让那些真正重要的细节，都能在模型里找到自己的位置。
从“精灵计划”的演示来看，一个值得反复琢磨的问题是：在采取实际行动之前，生物会先用大脑里的模型做推演——这是那位苏格兰心理学家八十年前写下的句子。现在看来，要推开现实世界那扇门的，不只是人类。