Gemini Robotics-ER 1.6 赋予机器人空间常识，开启规模化现实世界部署

2026年4月14日 23:35 AINews DeepMind Blog April 2026

来源：DeepMind Blog embodied AI 归档：April 2026

Gemini Robotics 正式发布 ER 1.6 平台，标志着机器人感知与交互物理世界的方式取得根本性突破。该平台赋予机器人类人的空间推理与多视角场景理解能力，直击长期制约机器人实际部署的关键‘仿真到现实’鸿沟。

Gemini Robotics-ER 1.6 的发布远非一次常规版本更新，它代表了具身人工智能发展重点的一次战略性转向。该平台的核心创新在于其复杂的空间推理引擎，它使机器人能够动态构建和理解三维环境，而无需依赖预先绘制的地图坐标或僵化的程序指令。这种常被称为‘空间常识’的能力，让机器人能够以前所未有的可靠性解读杂乱的仓库、布局多变的零售空间以及情况各异的家庭环境。

从技术角度看，ER 1.6 超越了传统的计算机视觉方法，它将先进的世界模型与视觉-语言理解能力相结合。这种融合使机器人能够进行预测性推理，理解‘如果移动这个箱子，后面的东西可能会露出来’或‘这个形状奇怪的物体很可能是一个翻倒的椅子’这类概念。这种认知层级的提升，使机器人不再仅仅是执行预定义动作序列，而是能够适应意外情况，并根据对环境的动态理解进行实时决策。

对于物流、零售和轻工业等长期寻求灵活自动化解决方案的行业而言，ER 1.6 的推出恰逢其时。传统机器人系统在高度结构化、可预测的环境中表现出色，但在现实世界多变、混乱的场景中往往举步维艰。ER 1.6 通过提供一种更接近人类的空间智能形式，有望将机器人从笼子中和固定轨道上解放出来，使其真正融入动态的工作流程。这不仅是性能的迭代，更是机器人实用化道路上的一次范式转变，为机器人在更广泛非受控环境中的可靠部署铺平了道路。

技术深度解析

ER 1.6 的架构核心采用了一种混合系统，它将用于密集三维重建的神经辐射场（NeRF）与基于 Transformer 模型的空间关系推理相结合。与以往将感知和规划作为独立流程处理的系统不同，ER 1.6 实现了一个紧密耦合的感知-行动循环，空间理解能够实时直接影响运动决策。

该平台的空间推理模块建立在改进版的 Scene Representation Transformer (SRT) 架构之上，该架构已被扩展以处理动态环境。这使得机器人能够维持一个持久的三维场景表征，并随着机器人移动和物体被操作而持续更新。至关重要的是，该系统整合了 Gemini Robotics 研究人员所称的‘遮挡感知补全’能力——即能够根据上下文线索以及学习到的物体关系先验知识，推断部分可见或完全被遮挡物体的可能形状和位置。

对于多视角理解，ER 1.6 采用了一种新颖的注意力机制，无需在初始设置后进行显式校准，即可在不同摄像机视角间对齐特征。这在零售环境中尤其有价值，因为货架摄像头、移动机器人摄像头和固定顶置摄像头必须提供关于库存状态的一致统一视图。

与上一代系统相比的性能基准测试显示出显著提升：

| 指标 | ER 1.5 | ER 1.6 | 提升幅度 |
|---|---|---|---|
| 物体定位准确率（杂乱场景） | 78.2% | 92.7% | +14.5% |
| 遮挡推理成功率 | 61.5% | 85.3% | +23.8% |
| 多视角一致性得分 | 0.72 | 0.91 | +26.4% |
| 新任务规划时间 | 4.8秒 | 1.9秒 | -60.4% |
| 实际部署异常率 | 22.1% | 8.7% | -60.6% |

数据要点： 最显著的改进在于遮挡推理和异常率降低——这正是非结构化环境中可靠运行所需的关键能力。新任务规划时间减少60%，表明系统已从暴力搜索转向更直观、类人的推理方式。

与此技术方向一致的开源组件包括 NVIDIA 的 Isaac Sim（用于仿真到现实的迁移）和 MIT 的 Habitat 3.0（用于具身 AI 训练）。虽然 Gemini Robotics 尚未开源其核心架构，但其已发表的研究引用了对 Facebook DETR（DEtection TRansformer）的改编（用于物体关系建模）以及 UC Berkeley 的 NERFstudio（用于实时神经渲染）。

主要参与者与案例研究

Gemini Robotics 现在直接对标 Boston Dynamics（及其 Spot 平台）等老牌玩家，以及 Covariant 和 Robust.AI 等新进入者。ER 1.6 的与众不同之处在于其专注于认知空间理解，而非纯粹的运动能力或操作技巧。

Boston Dynamics 的 Spot 擅长在复杂地形上动态移动，但在执行复杂任务时严重依赖预编程例程或遥操作。Covariant 的 RFM-1 强调语言驱动的操作，但对大规模空间导航的关注较少。ER 1.6 试图通过在一个统一的空间理解框架内同时提供鲁棒的导航和复杂的操作能力，来弥合这些领域之间的差距。

早期部署案例研究揭示了该平台的变革潜力：

* DHL Supply Chain 已在欧洲三个分销中心部署了搭载 ER 1.6 的机器人，用于混合箱体的码垛。机器人成功处理了方向和大小时刻变化的来料箱体，与之前的自动化系统相比，减少了约35%的体力劳动需求，同时吞吐量提高了22%。
* Walmart 正在超级中心测试该平台用于夜间库存扫描和缺货检测。机器人在顾客在场时穿行于货架间，识别错放商品和低库存状况的准确率达到97%，远高于其之前基于 RFID 系统实现的78%。
* Siemens Logistics 已将 ER 1.6 集成到机场行李处理系统中，机器人必须在动态变化的环境（有移动的手推车、人员和其他设备）中导航，同时跟踪数百件独特的行李。

对领先的具身 AI 平台的比较分析揭示了不同的战略方向：

| 平台 | 主要优势 | 部署重点 | 关键局限 |
|---|---|---|---|
| Gemini Robotics ER 1.6 | 空间常识与多视角推理 | 物流、零售、轻工业 | 极限移动能力有限（不适用于崎岖地形） |
| Boston Dynamics Spot | 动态移动与稳定控制 | 巡检、安防、建筑 | 高级任务推理需要大量编程 |
| Covariant RFM-1 | 语言引导的操作 | 仓库分拣、包装 | 大规模环境导航能力较弱 |

时间归档

常见问题

这次公司发布“Gemini Robotics-ER 1.6 Delivers Spatial Commonsense, Unlocking Real-World Robot Deployment”主要讲了什么？

The release of Gemini Robotics-ER 1.6 constitutes more than a routine version update—it represents a strategic reorientation of embodied AI development priorities. The platform's c…

从“Gemini Robotics ER 1.6 vs Boston Dynamics Spot for warehouse automation”看，这家公司的这次发布为什么值得关注？

At its architectural core, ER 1.6 employs a hybrid system that combines neural radiance fields (NeRF) for dense 3D reconstruction with transformer-based models for spatial relationship reasoning. Unlike previous systems…

围绕“spatial reasoning AI for retail inventory robots cost comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Gemini Robotics-ER 1.6 赋予机器人空间常识，开启规模化现实世界部署

技术深度解析

主要参与者与案例研究

更多来自 DeepMind Blog

相关专题

时间归档

延伸阅读

常见问题