空间智能:下一代AI推理缺失的关键拼图

Towards AI June 2026
来源:Towards AIAI reasoninglarge language modelsworld models归档:June 2026
大语言模型能写诗、能编程,却无法可靠地将一把椅子放在桌子的左侧。AINews深度剖析这一“空间盲点”如何成为具身智能的瓶颈,并揭示认知地图与世界模型的新研究浪潮,如何有望赋予机器真正的空间感知能力。

AI社区长期以来盛赞大语言模型(LLM)的语言与逻辑能力,然而一个根本性缺陷始终存在:它们缺乏对物理空间的连贯理解。这一被称为“空间盲点”的鸿沟,在导航、操作和规划任务中暴露无遗——而这些任务连儿童都能轻松完成。AINews分析指出,根源在于训练数据本身:纯文本缺乏几何、拓扑和度量关系。模型学到的只是符号关联,而非在三维世界中移动的具身体验。多模态学习与世界模型的最新突破正直接应对这一挑战。研究人员将坐标系、距离度量和关系几何直接嵌入模型架构。从3D-LLM在静态基准上的高精度,到DreamerV3在机器人操作中的显著提升,再到Covariant、Physical Intelligence和Google DeepMind等关键玩家的商业化探索,空间智能正从学术前沿走向产业落地。本文通过技术深潜、数据对比与案例研究,全面揭示空间推理如何成为下一代AI的核心战场。

技术深度解析

核心问题在于,LLM基于token序列运作,而token本身不具备任何空间含义。当模型处理“将杯子移到盘子右侧”这句话时,它将词汇映射到高维语义空间中的向量,但对左、右、前、后作为物理方向并无内在理解。这是因为训练语料——网页文本、书籍、代码——只包含空间的语言描述,从未包含真实的几何信息。

为弥合这一鸿沟,研究人员正将空间表征直接整合进模型架构。一种有前景的方法是神经地图范式,即模型维护一个内部的2D或3D潜在特征网格,并通过注意力机制进行更新。例如,DeepMind在空间变换网络神经场景表征上的工作,使模型能够学习仿射变换和空间注意力,从而有效“观察”坐标空间的不同区域。

另一关键技术是带有几何先验的位置编码。标准Transformer使用正弦位置编码来捕捉token顺序,而非空间关系。较新的方法,如3D-LLM项目(UC Berkeley与Meta的合作成果),将显式的3D坐标和边界框注入token嵌入。这使得模型能够推理物体大小、距离和遮挡。例如,3D-LLM模型可以接受点云作为输入,并回答“离蓝色椅子最近的物体是什么?”这类问题,在ScanNet基准上准确率超过90%。

世界模型是最具雄心的框架。由David Ha和Jürgen Schmidhuber等人开创,近期由LeCun的联合嵌入预测架构(JEPA) 推进,这些模型学习环境状态与动态的压缩表征。它们不是预测下一个token,而是预测世界的下一个状态。这天然要求空间推理:要预测场景在执行动作后如何变化,模型必须理解物体位置、速度和物理约束。DeepMind的Dreamer算法从像素输入中学习世界模型,在机器人操作任务中取得了显著成功,在MetaWorld基准上达到70%的成功率,而无模型强化学习仅为40%。

| 模型/方法 | 空间模态 | 基准 | 性能指标 | 关键局限 |
|---|---|---|---|---|
| 3D-LLM | 点云+文本 | ScanNet QA | 91.2%准确率 | 需要3D传感器输入 |
| CLIP-Fields | RGB+文本 | ObjectNav | 65%成功率 | 难以处理动态场景 |
| DreamerV3 | 像素/RGB | MetaWorld | 70%任务成功率 | 训练计算成本高 |
| SayCan (Google) | 机器人+LLM | 厨房任务 | 84%任务完成率 | 依赖预定义技能 |

数据要点: 表格显示,尽管专用空间模型(如3D-LLM)在静态基准上达到高精度,但真实世界的具身任务(ObjectNav、MetaWorld)成功率仍显著较低。感知与行动之间的鸿沟仍是最大挑战。

对于开发者,开源仓库habitat-lab(Meta出品,5.2k星)提供了训练具身智能体进行空间推理的仿真平台。Isaac Gym(NVIDIA)和MuJoCo(Google DeepMind)对于基于物理的空间AI训练也至关重要。

关键玩家与案例研究

空间AI竞赛正在多个战线升温。以下是关键玩家及其策略:

1. Covariant——这家机器人初创公司构建了一个名为RFM-1的机器人操作基础模型。它基于数百万条真实世界机器人轨迹训练,从而对物体几何和可供性有了隐式理解。Covariant的机器人能够抓取和放置从未见过的物体,这需要关于抓取点和碰撞避免的空间推理。其物流仓库的商业部署相比传统自动化将错误率降低了60%。

2. Physical Intelligence——一家由前Google Brain和DeepMind研究员创立的隐形初创公司,正在开发一种结合LLM与空间世界模型的“通用机器人大脑”。其方法使用基于扩散的策略,根据视觉观察和语言指令生成机器人动作。早期演示显示,机器人手臂能够折叠衣物和组装家具——这些任务要求精确的空间协调。

3. Google DeepMind——他们的Gemini模型已具备多模态理解能力,但团队正通过SpatialVLM(视觉语言模型)进一步推进。该模型使用一种新颖的“空间分词器”,将3D场景图转换为LLM可处理的token序列。在内部测试中,SpatialVLM将零样本导航性能提升了35%。

更多来自 Towards AI

LangSmith Eval Gates:让LLM部署从“能用”进化到“可信”LangSmith,作为 LLM 应用的可观测性与评估平台,近日推出两大关键功能:Eval Gates 与高级提示版本管理。Eval Gates 允许开发者将评估标准直接嵌入部署流水线,自动拦截任何未达预设阈值的输出,从而将评估从被动的“成Anthropic的静默政变:安全战略如何从OpenAI手中夺走企业信任OpenAI凭借ChatGPT的病毒式传播和GPT-4o的炫目演示,打造了一个消费级品牌巨兽。然而,在聚光灯之外,一场更安静、更具战略性的变革正在发生。由前OpenAI研究员Dario Amodei领导的Anthropic,执行了业内人士所48小时AI风暴:Codex升级、MAI-Thinking-1横空出世、MiniMax M3多模态首秀,以及那个子虚乌有的GPT-5.6泄露过去48小时,AI领域接连遭遇四重冲击,但围绕所谓GPT-5.6泄露的噪音,掩盖了一场更为深远的变革。OpenAI的Codex升级绝非例行更新:它将深度推理直接嵌入开发者工作流,标志着从“代码生成”到“自主编程代理”的飞跃。与此同时,MAI查看来源专题页Towards AI 已收录 84 篇文章

相关专题

AI reasoning33 篇相关文章large language models170 篇相关文章world models141 篇相关文章

时间归档

June 20261265 篇已发布文章

延伸阅读

探索与利用的永恒博弈:强化学习核心张力如何重塑AI未来每个智能系统的核心都存在着一个根本性的权衡:在探索未知与利用已知之间取得平衡。这一源自强化学习的经典“探索-利用困境”,已超越学术范畴,正成为从创意大语言模型到开放世界自主智能体等新一代AI的核心设计原则。无声的马拉松:为何具身智能的真正竞赛在于认知,而非速度当双足机器人以创纪录时间完成马拉松时,公众欢呼雀跃,机器人业界却异常沉默。这一反应揭示了一个根本性的战略转向:具身智能不再追求炫技性的运动壮举,其核心使命是打造经济实惠、具备认知能力且普适通用的机器人平台。1900年大语言模型实验:当经典AI无法理解相对论一项突破性实验揭示了当代人工智能的关键局限性。当一个仅训练于1900年前文本的大语言模型被要求解释爱因斯坦的相对论时,它给出了逻辑自洽但根本错误的解释。这项控制性测试凸显了统计模式匹配与真正理解之间的鸿沟。Claude Cowork:透明AI循环如何将等待转化为信任Anthropic推出的Claude Cowork彻底颠覆了传统AI的黑箱输出模式:它通过一个可见的“规划-工具调用-检查”循环,实时展示模型的推理过程。这一设计将用户的等待从焦虑期转变为洞察与协作的契机。

常见问题

这次模型发布“Why Spatial Intelligence Is the Missing Piece for Next-Gen AI Reasoning”的核心内容是什么?

The AI community has long celebrated the linguistic and logical prowess of large language models (LLMs), yet a fundamental deficiency persists: they lack a coherent understanding o…

从“spatial intelligence AI startups funding 2026”看,这个模型发布为什么重要?

The core problem is that LLMs operate on a sequence of tokens, which have no inherent spatial meaning. When a model processes the sentence "move the cup to the right of the plate," it maps the words to vectors in a high-…

围绕“how to train spatial reasoning in LLMs”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。