技术深度解析
核心问题在于,LLM基于token序列运作,而token本身不具备任何空间含义。当模型处理“将杯子移到盘子右侧”这句话时,它将词汇映射到高维语义空间中的向量,但对左、右、前、后作为物理方向并无内在理解。这是因为训练语料——网页文本、书籍、代码——只包含空间的语言描述,从未包含真实的几何信息。
为弥合这一鸿沟,研究人员正将空间表征直接整合进模型架构。一种有前景的方法是神经地图范式,即模型维护一个内部的2D或3D潜在特征网格,并通过注意力机制进行更新。例如,DeepMind在空间变换网络和神经场景表征上的工作,使模型能够学习仿射变换和空间注意力,从而有效“观察”坐标空间的不同区域。
另一关键技术是带有几何先验的位置编码。标准Transformer使用正弦位置编码来捕捉token顺序,而非空间关系。较新的方法,如3D-LLM项目(UC Berkeley与Meta的合作成果),将显式的3D坐标和边界框注入token嵌入。这使得模型能够推理物体大小、距离和遮挡。例如,3D-LLM模型可以接受点云作为输入,并回答“离蓝色椅子最近的物体是什么?”这类问题,在ScanNet基准上准确率超过90%。
世界模型是最具雄心的框架。由David Ha和Jürgen Schmidhuber等人开创,近期由LeCun的联合嵌入预测架构(JEPA) 推进,这些模型学习环境状态与动态的压缩表征。它们不是预测下一个token,而是预测世界的下一个状态。这天然要求空间推理:要预测场景在执行动作后如何变化,模型必须理解物体位置、速度和物理约束。DeepMind的Dreamer算法从像素输入中学习世界模型,在机器人操作任务中取得了显著成功,在MetaWorld基准上达到70%的成功率,而无模型强化学习仅为40%。
| 模型/方法 | 空间模态 | 基准 | 性能指标 | 关键局限 |
|---|---|---|---|---|
| 3D-LLM | 点云+文本 | ScanNet QA | 91.2%准确率 | 需要3D传感器输入 |
| CLIP-Fields | RGB+文本 | ObjectNav | 65%成功率 | 难以处理动态场景 |
| DreamerV3 | 像素/RGB | MetaWorld | 70%任务成功率 | 训练计算成本高 |
| SayCan (Google) | 机器人+LLM | 厨房任务 | 84%任务完成率 | 依赖预定义技能 |
数据要点: 表格显示,尽管专用空间模型(如3D-LLM)在静态基准上达到高精度,但真实世界的具身任务(ObjectNav、MetaWorld)成功率仍显著较低。感知与行动之间的鸿沟仍是最大挑战。
对于开发者,开源仓库habitat-lab(Meta出品,5.2k星)提供了训练具身智能体进行空间推理的仿真平台。Isaac Gym(NVIDIA)和MuJoCo(Google DeepMind)对于基于物理的空间AI训练也至关重要。
关键玩家与案例研究
空间AI竞赛正在多个战线升温。以下是关键玩家及其策略:
1. Covariant——这家机器人初创公司构建了一个名为RFM-1的机器人操作基础模型。它基于数百万条真实世界机器人轨迹训练,从而对物体几何和可供性有了隐式理解。Covariant的机器人能够抓取和放置从未见过的物体,这需要关于抓取点和碰撞避免的空间推理。其物流仓库的商业部署相比传统自动化将错误率降低了60%。
2. Physical Intelligence——一家由前Google Brain和DeepMind研究员创立的隐形初创公司,正在开发一种结合LLM与空间世界模型的“通用机器人大脑”。其方法使用基于扩散的策略,根据视觉观察和语言指令生成机器人动作。早期演示显示,机器人手臂能够折叠衣物和组装家具——这些任务要求精确的空间协调。
3. Google DeepMind——他们的Gemini模型已具备多模态理解能力,但团队正通过SpatialVLM(视觉语言模型)进一步推进。该模型使用一种新颖的“空间分词器”,将3D场景图转换为LLM可处理的token序列。在内部测试中,SpatialVLM将零样本导航性能提升了35%。