
硅谷顶级资金正在集体押注一个新方向。摩根士丹利最新报告给出的判断相当直接:以语言为核心的大模型红利正在逼近天花板,下一阶段的竞争焦点,将转向“世界模型”——一种试图让机器真正理解三维空间、物理规律与时间演化的能力。从Waymo依赖虚拟环境完成数十亿英里测试,到微软用AI实时生成可交互的《Quake II》世界,这一技术路径的应用边界,已经不再局限于自动驾驶或机器人,而是开始向游戏、影视、设计等多个行业外溢。
如果说过去几年,大模型的核心价值在于“理解语言、生成内容”,那么世界模型的目标更像是“理解现实、模拟现实”。这听起来只是多加了两个字,但难度的量级完全不同。语言本质上是符号系统,而现实世界则是连续的、动态的、充满不确定性的复杂系统。让机器在文本中预测下一个词,和让它在三维空间中预测一个物体下一秒会如何运动,完全是两种问题。
也正因为如此,当前的大模型能力开始显露出边界。无论参数规模如何扩大,其本质仍然是在既有语料中进行模式拟合。当数据红利逐渐被消耗,性能提升开始递减,资本自然会寻找新的增长曲线。世界模型,正好提供了一个新的叙事空间,而且这个叙事,比“生成一段更像人类的文字”要宏大得多。
从技术路径来看,世界模型的核心在于构建一个可以“内化现实规律”的系统。它不仅要理解物体的形状和位置,还要理解重力、碰撞、光影变化,甚至时间序列中的因果关系。这也是为什么自动驾驶成为最早的试验场之一。Waymo等公司通过构建大规模仿真环境,让算法在虚拟世界中反复训练,这些“虚拟里程”在某种程度上比真实道路更高效,因为它们可以无限复制、加速和修改。
这种能力一旦成熟,其外溢效应是巨大的。游戏行业可能是最直观的受益者。过去,游戏世界是由程序员和设计师手工构建的,而未来,AI可以根据规则自动生成一个动态演化的世界,甚至根据玩家行为实时调整。这不仅改变开发成本结构,也会改变玩家体验本身——游戏不再是被设计好的内容,而是持续生成的过程。
影视行业同样面临类似的冲击。当前的特效制作,本质上是对现实世界的模拟,但成本高昂且周期漫长。如果世界模型能够在一定程度上自动完成场景生成、物理模拟和角色互动,那么制作流程将被大幅压缩。换句话说,好莱坞过去依赖的“烧钱能力”,可能会部分被“算力能力”取代。
设计行业也不例外。从建筑到工业设计,很多工作本质上是对空间与功能的组合优化。如果AI能够理解物理约束并进行多方案模拟,那么设计师的角色,将从“画方案”转向“选方案”。这听起来像是效率提升,但本质上是价值链的重排。
当然,这一切的前提,是算力与数据的进一步突破。相比语言模型,世界模型对计算资源的需求更加夸张。它不仅需要处理更高维度的数据,还需要在时间轴上进行连续预测。这意味着,芯片、云计算基础设施乃至能源供应,都会成为这一轮竞争的关键变量。简单来说,让AI“看懂世界”,比让它“会聊天”要烧钱得多。
这也是为什么资本开始提前布局。从表面看,投资的是AI公司,但更深层的逻辑,是在争夺下一代基础设施的入口。谁能构建最接近真实世界的模型,谁就可能在未来的多个行业中占据底层位置。这种“底层优势”,一旦形成,往往具有很强的锁定效应。
但需要警惕的是,世界模型同样存在不确定性。技术路径尚未完全收敛,商业模式也在探索阶段。更现实的问题是,市场对AI的预期已经被多轮叙事推高,一旦进展不及预期,估值波动几乎是必然的。换句话说,这是一场高潜力、高波动的竞赛,适合有耐心的资本,也考验耐心。
从更宏观的角度看,这一轮转向也反映出AI发展的一个阶段性特征。早期阶段,技术主要解决“信息处理”的问题,而当这一能力趋于成熟后,下一步自然是向“物理世界”扩展。这种扩展不仅是技术演进,也是商业空间的放大。毕竟,现实世界的规模远大于信息世界。
如果说互联网时代的核心资产是流量,那么AI时代的核心资产,可能会逐渐转向“对现实的建模能力”。谁能更准确地模拟世界,谁就能更高效地优化资源配置。这听起来有点像科幻,但很多产业已经在边缘感受到这种变化。
有意思的是,这一切的发展,并不会立刻取代现有行业,而更像是逐步渗透。就像当年的互联网,并没有一夜之间消灭传统行业,而是慢慢重塑它们。世界模型也是如此,它不会突然让所有游戏公司、影视公司或设计公司消失,但会改变它们的生产方式与竞争逻辑。
所以,当资本开始集体押注“世界模型”时,它们赌的并不是一个短期热点,而是一种更长期的技术方向。语言模型让机器开始理解人类,而世界模型试图让机器理解世界本身。这两者之间的差距,可能正是下一轮AI红利的来源。
这一步如果走通,影响的将不只是某一个行业,而是整个经济结构。