李飞飞预言：“空间智能”是AI的下一个疆域_综述_全球资讯

APP下载发布文章注册登录

要闻快讯海客

首页 > 全球资讯 > 综述 > 李飞飞预言：“空间智能”是AI的下一个疆域

李飞飞预言：“空间智能”是AI的下一个疆域

Vicky 来源: 2025-11-12 08:19

重点摘要

全球AI竞赛进入空间智能时代，李飞飞预言它将重塑机器的认知边界。

人工智能先驱李飞飞在一篇长文中提出一个令人震撼的判断：AI的未来，不在更快的算力或更聪明的语言，而在“空间智能”。她认为，这是人工智能的下一个疆域——让机器不仅能理解世界，还能在世界中行动、构建和创造。简单说，这是AI第一次真正“长出眼睛和双手”的时刻。

过去几年，ChatGPT、Claude、Gemini等语言模型像才华横溢的文字工匠，在数字世界中编织无数段优美的语言，却依旧摸不到现实的温度。李飞飞指出，AI要想真正理解人类，就必须突破语言的二维牢笼，进入三维世界，能感知空间、理解物理、预测变化。那一刻，AI才算真正从“会说话的书呆子”变成“懂世界的建筑师”。

所谓空间智能，本质是让AI具备对现实世界的认知模型。李飞飞的核心观点是：机器必须学会在脑中“重建世界”，即通过生成一个符合物理规律的虚拟空间，来推理和预测现实。这种世界模型不同于图像识别或视频生成，而是能让AI在脑中模拟一个真实可交互的环境。举个简单例子，一个懂空间智能的AI看到桌上的球，会自动预见它滚落的轨迹，而不是仅仅识别“这是一个球”。这种能力听似自然，对AI却是质变的门槛。过去的大语言模型只理解“语义”，而空间智能让它理解“因果”；过去AI的知识是静态的，现在它的认知变成了动态的。这意味着AI不再是“读书人”，而是“实验家”，能像科学家一样在虚拟世界中做实验、验证假设。

这一概念之所以引发轰动，是因为它直击当前AI的最大瓶颈。语言模型再强，也无法真正“理解”物理世界。它能描述苹果落地，却不知道重力加速度是多少；能描绘夕阳，却不懂光线角度如何变化。

李飞飞称这种局限是“认知孤岛”，而空间智能将是通往大陆的桥梁。它让AI拥有多模态感知，从视觉、听觉、触觉到动作数据的融合学习，从而具备真正的“世界模型”。这不仅是技术进化，更是一场认知革命，AI从“基于符号的智能”转向“基于世界的智能”，从文字逻辑到物理直觉的跃迁。

这种转变的潜力已经在多个领域显现。短期内，空间智能推动了创意产业的变革。World Labs推出的Marble工具，让创作者仅凭文字描述就能生成完整的3D世界，故事不再只是纸上文字，而是可漫步、可探索的虚拟空间。中期内，它将成为机器人智能的核心。

以特斯拉的Optimus为例，它的动作协调和环境预判依赖的正是空间理解，能知道箱子在哪、路径是否平滑、手臂该以何种角度避免碰撞。长期来看，空间智能可能彻底改变科学研究方式。从分子动力学到气候预测，从药物合成到宇宙模拟，AI将在虚拟空间中试验成千上万种可能，科学家的发现周期将被大幅缩短。

空间智能的构建并非轻而易举，它是一场“数字建筑工程”。要生成一个符合物理定律的世界，AI需要海量三维数据作支撑，需要遵守牛顿力学、流体力学、光照模型等复杂规律。其次，它必须融合来自图像、声音、动作的多模态输入，这意味着AI要同时理解摄像头、雷达和惯性传感器的数据。最后，它还要学会预测世界的时间演变，即理解“变化”本身。

例如在一段视频中，AI不仅要识别物体，还要预测它的下一帧如何运动。这种跨模态、跨时间的建模，是机器从“观察者”变“参与者”的关键门槛。李飞飞将这三个能力比作AI的“世界三部曲”：空间一致性是基础，多模态感知是身体，时间预测是灵魂。

这种系统的训练成本极高。一个高保真世界模型需要PB级数据量和上万张GPU支持，成本可达数亿美元。OpenAI的Sora项目被视为早期探索，它能生成符合物理逻辑的视频，但距离真正的世界模型仍有数年之遥。

谷歌的Gemini和Meta的Llama团队也在并行推进，尝试让模型从语言延伸到三维理解。中国的科研力量在数据标注和仿真引擎上加速追赶，阿里、百度等机构开源3D语料库，力图建立“数据民主”的生态，让空间智能从实验室走向大众。

从只会说话的“文字工匠”，到能理解世界、操纵物理、预测未来的“世界建筑师”，机器第一次具备了类似人类的认知深度。李飞飞的愿景中，AI不再只是工具，而是共创者，是人类思想在数字世界的延伸。她说：“当AI能在脑中建造世界，它也许终于能理解我们。”这句话像一束光，照亮了人工智能通往真正智能的路，也提醒人类在未来的共生时代，需要的不只是技术的勇气，更是理解的温度。