
在任何一场技术革命里,最聪明的投资,往往不是押注谁会赢,而是押注赢家无论是谁都必须向谁购买。
1849年加州淘金热,最赚钱的不是找到金矿的淘金者,而是卖铁铲和牛仔裤的商人。大模型时代,最确定的受益者不是押对了哪家AI公司,而是卖算力的英伟达。物理AI时代,那个铁铲的位置,越来越清晰地落在了数据上。
具身智能,也就是能够在物理世界中自主行动的机器人系统,是当前AI发展中最受关注、也最难突破的前沿方向。过去数年,算法层面的进步已经相当显著,大型语言模型和视觉模型为机器人提供了强大的感知和推理基础。但当研究者和工程师们试图将这些能力落地到真实的物理操作任务中,他们发现了一个比算法本身更难解决的问题:数据。
机器人学习抓取一个物体,需要大量关于力、位置、速度和触觉反馈的多模态数据。机器人学习在复杂环境中导航,需要覆盖无数种光照条件、地面状况和障碍物分布的场景数据。机器人学习理解人类的意图并做出恰当的响应,需要大量包含人类行为和语境信息的交互数据。这些数据,不像文字数据那样可以从互联网上大量抓取,它们存在于物理世界,必须被专门采集,而采集的成本、难度和专业性要求,都远超此前任何一类AI训练数据。
具身智能的数据需求,正在以指数级的速度爆发。这不只是数量的问题,更是复杂度的问题。每一个新的操作任务,每一种新的物理环境,每一类新的交互对象,都对应着一套全新的数据需求,这种多样性和复杂性的组合,使得数据采集的难度以一种远超线性的方式扩张。
在这个背景下,"仿真加视频预训练,然后真实环境微调"的技术路径,正在逐渐成为行业的主流共识。
这个路径的逻辑,在于用仿真数据解决真实数据规模不足的问题。在仿真环境里,可以以接近零边际成本的方式生成无限量的训练数据,覆盖各种边缘场景和极端条件。视频预训练则利用网络上已有的海量人类活动视频,让模型学习物理世界中物体运动和人类操作的基本规律。在这两个来源的大规模预训练之后,再用相对少量的真实世界数据进行微调,让模型适应具体任务的细节要求。
这个路径的有效性,已经在多个研究方向上得到了初步验证。它的价值,不只在于降低了数据采集的成本,更在于它将具身智能的数据生产,从一个高度分散、难以规模化的采集任务,部分转化为一个可以在仿真环境中系统性生产的工程问题。
这个转化,正是"卖铲人"机会的来源。
数据采集工具链,是这个生态里最直接的基础设施提供者。当具身智能的数据需求以指数级速度爆发,而真实世界数据采集的复杂性远超传统软件AI,专门设计用于机器人数据采集的硬件设备、标注工具和数据管理平台,就会从一个小众的行业工具,变成一个规模和重要性都在快速扩大的核心基础设施。就像早年互联网对带宽和服务器的需求催生了一批基础设施公司,物理AI对高质量具身数据的需求,正在催生一批专注于数据采集和处理的新型工具链公司。
仿真平台,是这个生态里技术壁垒最高、潜在价值最大的一个方向。好的物理仿真,需要极高精度地还原真实世界的物理规律,包括刚体动力学、软体变形、流体行为和光照条件。这种精度,不只需要强大的计算能力,更需要深厚的物理建模积累和对真实世界数据的持续校准。能够建立高保真仿真环境的平台,将成为具身智能训练生态中最难被替代的基础设施之一,其价值类似于大模型时代的GPU,是一种有天然规模壁垒的稀缺资源。
视频升维技术,则是这个生态里最具创新性的一个方向。它试图解决的问题是:如何将二维的视频信息升维为包含三维空间信息和物理属性的训练数据。互联网上存在海量的人类操作视频,如果能够有效地从这些视频中提取出机器人可以学习的动作序列、空间关系和力学信息,就相当于打开了一个几乎无穷无尽的免费数据宝库。这个技术方向的突破,可能对整个具身智能的数据获取效率产生一种类似大语言模型对文字数据处理效率突破那样的范式级影响。
把这三个方向放在一起,它们构成了物理AI时代最核心的数据基础设施层,是无论哪家机器人公司最终在应用层胜出,都必须使用的底层工具。这种不依赖于特定应用层赢家的结构性价值,正是"卖铲人"逻辑最吸引人的地方。
当然,这个机会的兑现,有其时间节奏的约束。具身智能目前还处于技术快速演进、商业模式尚未完全成形的早期阶段,数据需求的爆发虽然已经在实验室和先进工厂场景中开始显现,但真正的规模化需求,还需要等待机器人硬件成本的持续下降和应用场景的进一步成熟。
但"卖铲人"的机会,往往在淘金热最高峰到来之前就已经开始积累,因为铲子需要在挖金子之前就准备好。
物理AI时代的淘金热,已经宣布开始了。