空间智能：下一代AI推理缺失的关键拼图

2026年6月14日 05:31 AINews Towards AI June 2026

来源：Towards AI AI reasoning large language models world models 归档：June 2026

大语言模型能写诗、能编程，却无法可靠地将一把椅子放在桌子的左侧。AINews深度剖析这一“空间盲点”如何成为具身智能的瓶颈，并揭示认知地图与世界模型的新研究浪潮，如何有望赋予机器真正的空间感知能力。

AI社区长期以来盛赞大语言模型（LLM）的语言与逻辑能力，然而一个根本性缺陷始终存在：它们缺乏对物理空间的连贯理解。这一被称为“空间盲点”的鸿沟，在导航、操作和规划任务中暴露无遗——而这些任务连儿童都能轻松完成。AINews分析指出，根源在于训练数据本身：纯文本缺乏几何、拓扑和度量关系。模型学到的只是符号关联，而非在三维世界中移动的具身体验。多模态学习与世界模型的最新突破正直接应对这一挑战。研究人员将坐标系、距离度量和关系几何直接嵌入模型架构。从3D-LLM在静态基准上的高精度，到DreamerV3在机器人操作中的显著提升，再到Covariant、Physical Intelligence和Google DeepMind等关键玩家的商业化探索，空间智能正从学术前沿走向产业落地。本文通过技术深潜、数据对比与案例研究，全面揭示空间推理如何成为下一代AI的核心战场。

技术深度解析

核心问题在于，LLM基于token序列运作，而token本身不具备任何空间含义。当模型处理“将杯子移到盘子右侧”这句话时，它将词汇映射到高维语义空间中的向量，但对左、右、前、后作为物理方向并无内在理解。这是因为训练语料——网页文本、书籍、代码——只包含空间的语言描述，从未包含真实的几何信息。

为弥合这一鸿沟，研究人员正将空间表征直接整合进模型架构。一种有前景的方法是神经地图范式，即模型维护一个内部的2D或3D潜在特征网格，并通过注意力机制进行更新。例如，DeepMind在空间变换网络和神经场景表征上的工作，使模型能够学习仿射变换和空间注意力，从而有效“观察”坐标空间的不同区域。

另一关键技术是带有几何先验的位置编码。标准Transformer使用正弦位置编码来捕捉token顺序，而非空间关系。较新的方法，如3D-LLM项目（UC Berkeley与Meta的合作成果），将显式的3D坐标和边界框注入token嵌入。这使得模型能够推理物体大小、距离和遮挡。例如，3D-LLM模型可以接受点云作为输入，并回答“离蓝色椅子最近的物体是什么？”这类问题，在ScanNet基准上准确率超过90%。

世界模型是最具雄心的框架。由David Ha和Jürgen Schmidhuber等人开创，近期由LeCun的联合嵌入预测架构（JEPA） 推进，这些模型学习环境状态与动态的压缩表征。它们不是预测下一个token，而是预测世界的下一个状态。这天然要求空间推理：要预测场景在执行动作后如何变化，模型必须理解物体位置、速度和物理约束。DeepMind的Dreamer算法从像素输入中学习世界模型，在机器人操作任务中取得了显著成功，在MetaWorld基准上达到70%的成功率，而无模型强化学习仅为40%。

| 模型/方法 | 空间模态 | 基准 | 性能指标 | 关键局限 |
|---|---|---|---|---|
| 3D-LLM | 点云+文本 | ScanNet QA | 91.2%准确率 | 需要3D传感器输入 |
| CLIP-Fields | RGB+文本 | ObjectNav | 65%成功率 | 难以处理动态场景 |
| DreamerV3 | 像素/RGB | MetaWorld | 70%任务成功率 | 训练计算成本高 |
| SayCan (Google) | 机器人+LLM | 厨房任务 | 84%任务完成率 | 依赖预定义技能 |

数据要点： 表格显示，尽管专用空间模型（如3D-LLM）在静态基准上达到高精度，但真实世界的具身任务（ObjectNav、MetaWorld）成功率仍显著较低。感知与行动之间的鸿沟仍是最大挑战。

对于开发者，开源仓库habitat-lab（Meta出品，5.2k星）提供了训练具身智能体进行空间推理的仿真平台。Isaac Gym（NVIDIA）和MuJoCo（Google DeepMind）对于基于物理的空间AI训练也至关重要。

关键玩家与案例研究

空间AI竞赛正在多个战线升温。以下是关键玩家及其策略：

1. Covariant——这家机器人初创公司构建了一个名为RFM-1的机器人操作基础模型。它基于数百万条真实世界机器人轨迹训练，从而对物体几何和可供性有了隐式理解。Covariant的机器人能够抓取和放置从未见过的物体，这需要关于抓取点和碰撞避免的空间推理。其物流仓库的商业部署相比传统自动化将错误率降低了60%。

2. Physical Intelligence——一家由前Google Brain和DeepMind研究员创立的隐形初创公司，正在开发一种结合LLM与空间世界模型的“通用机器人大脑”。其方法使用基于扩散的策略，根据视觉观察和语言指令生成机器人动作。早期演示显示，机器人手臂能够折叠衣物和组装家具——这些任务要求精确的空间协调。

3. Google DeepMind——他们的Gemini模型已具备多模态理解能力，但团队正通过SpatialVLM（视觉语言模型）进一步推进。该模型使用一种新颖的“空间分词器”，将3D场景图转换为LLM可处理的token序列。在内部测试中，SpatialVLM将零样本导航性能提升了35%。

时间归档

常见问题

这次模型发布“Why Spatial Intelligence Is the Missing Piece for Next-Gen AI Reasoning”的核心内容是什么？

The AI community has long celebrated the linguistic and logical prowess of large language models (LLMs), yet a fundamental deficiency persists: they lack a coherent understanding o…

从“spatial intelligence AI startups funding 2026”看，这个模型发布为什么重要？

The core problem is that LLMs operate on a sequence of tokens, which have no inherent spatial meaning. When a model processes the sentence "move the cup to the right of the plate," it maps the words to vectors in a high-…

围绕“how to train spatial reasoning in LLMs”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

空间智能：下一代AI推理缺失的关键拼图

技术深度解析

关键玩家与案例研究

更多来自 Towards AI

相关专题

时间归档

延伸阅读

常见问题