Gemini Robotics-ER 1.6 赋予机器人空间常识,开启规模化现实世界部署

DeepMind Blog April 2026
来源:DeepMind Blogembodied AI归档:April 2026
Gemini Robotics 正式发布 ER 1.6 平台,标志着机器人感知与交互物理世界的方式取得根本性突破。该平台赋予机器人类人的空间推理与多视角场景理解能力,直击长期制约机器人实际部署的关键‘仿真到现实’鸿沟。

Gemini Robotics-ER 1.6 的发布远非一次常规版本更新,它代表了具身人工智能发展重点的一次战略性转向。该平台的核心创新在于其复杂的空间推理引擎,它使机器人能够动态构建和理解三维环境,而无需依赖预先绘制的地图坐标或僵化的程序指令。这种常被称为‘空间常识’的能力,让机器人能够以前所未有的可靠性解读杂乱的仓库、布局多变的零售空间以及情况各异的家庭环境。

从技术角度看,ER 1.6 超越了传统的计算机视觉方法,它将先进的世界模型与视觉-语言理解能力相结合。这种融合使机器人能够进行预测性推理,理解‘如果移动这个箱子,后面的东西可能会露出来’或‘这个形状奇怪的物体很可能是一个翻倒的椅子’这类概念。这种认知层级的提升,使机器人不再仅仅是执行预定义动作序列,而是能够适应意外情况,并根据对环境的动态理解进行实时决策。

对于物流、零售和轻工业等长期寻求灵活自动化解决方案的行业而言,ER 1.6 的推出恰逢其时。传统机器人系统在高度结构化、可预测的环境中表现出色,但在现实世界多变、混乱的场景中往往举步维艰。ER 1.6 通过提供一种更接近人类的空间智能形式,有望将机器人从笼子中和固定轨道上解放出来,使其真正融入动态的工作流程。这不仅是性能的迭代,更是机器人实用化道路上的一次范式转变,为机器人在更广泛非受控环境中的可靠部署铺平了道路。

技术深度解析

ER 1.6 的架构核心采用了一种混合系统,它将用于密集三维重建的神经辐射场(NeRF)与基于 Transformer 模型的空间关系推理相结合。与以往将感知和规划作为独立流程处理的系统不同,ER 1.6 实现了一个紧密耦合的感知-行动循环,空间理解能够实时直接影响运动决策。

该平台的空间推理模块建立在改进版的 Scene Representation Transformer (SRT) 架构之上,该架构已被扩展以处理动态环境。这使得机器人能够维持一个持久的三维场景表征,并随着机器人移动和物体被操作而持续更新。至关重要的是,该系统整合了 Gemini Robotics 研究人员所称的‘遮挡感知补全’能力——即能够根据上下文线索以及学习到的物体关系先验知识,推断部分可见或完全被遮挡物体的可能形状和位置。

对于多视角理解,ER 1.6 采用了一种新颖的注意力机制,无需在初始设置后进行显式校准,即可在不同摄像机视角间对齐特征。这在零售环境中尤其有价值,因为货架摄像头、移动机器人摄像头和固定顶置摄像头必须提供关于库存状态的一致统一视图。

与上一代系统相比的性能基准测试显示出显著提升:

| 指标 | ER 1.5 | ER 1.6 | 提升幅度 |
|---|---|---|---|
| 物体定位准确率(杂乱场景) | 78.2% | 92.7% | +14.5% |
| 遮挡推理成功率 | 61.5% | 85.3% | +23.8% |
| 多视角一致性得分 | 0.72 | 0.91 | +26.4% |
| 新任务规划时间 | 4.8秒 | 1.9秒 | -60.4% |
| 实际部署异常率 | 22.1% | 8.7% | -60.6% |

数据要点: 最显著的改进在于遮挡推理和异常率降低——这正是非结构化环境中可靠运行所需的关键能力。新任务规划时间减少60%,表明系统已从暴力搜索转向更直观、类人的推理方式。

与此技术方向一致的开源组件包括 NVIDIA 的 Isaac Sim(用于仿真到现实的迁移)和 MIT 的 Habitat 3.0(用于具身 AI 训练)。虽然 Gemini Robotics 尚未开源其核心架构,但其已发表的研究引用了对 Facebook DETR(DEtection TRansformer)的改编(用于物体关系建模)以及 UC Berkeley 的 NERFstudio(用于实时神经渲染)。

主要参与者与案例研究

Gemini Robotics 现在直接对标 Boston Dynamics(及其 Spot 平台)等老牌玩家,以及 Covariant 和 Robust.AI 等新进入者。ER 1.6 的与众不同之处在于其专注于认知空间理解,而非纯粹的运动能力或操作技巧。

Boston Dynamics 的 Spot 擅长在复杂地形上动态移动,但在执行复杂任务时严重依赖预编程例程或遥操作。Covariant 的 RFM-1 强调语言驱动的操作,但对大规模空间导航的关注较少。ER 1.6 试图通过在一个统一的空间理解框架内同时提供鲁棒的导航和复杂的操作能力,来弥合这些领域之间的差距。

早期部署案例研究揭示了该平台的变革潜力:

* DHL Supply Chain 已在欧洲三个分销中心部署了搭载 ER 1.6 的机器人,用于混合箱体的码垛。机器人成功处理了方向和大小时刻变化的来料箱体,与之前的自动化系统相比,减少了约35%的体力劳动需求,同时吞吐量提高了22%。
* Walmart 正在超级中心测试该平台用于夜间库存扫描和缺货检测。机器人在顾客在场时穿行于货架间,识别错放商品和低库存状况的准确率达到97%,远高于其之前基于 RFID 系统实现的78%。
* Siemens Logistics 已将 ER 1.6 集成到机场行李处理系统中,机器人必须在动态变化的环境(有移动的手推车、人员和其他设备)中导航,同时跟踪数百件独特的行李。

对领先的具身 AI 平台的比较分析揭示了不同的战略方向:

| 平台 | 主要优势 | 部署重点 | 关键局限 |
|---|---|---|---|
| Gemini Robotics ER 1.6 | 空间常识与多视角推理 | 物流、零售、轻工业 | 极限移动能力有限(不适用于崎岖地形) |
| Boston Dynamics Spot | 动态移动与稳定控制 | 巡检、安防、建筑 | 高级任务推理需要大量编程 |
| Covariant RFM-1 | 语言引导的操作 | 仓库分拣、包装 | 大规模环境导航能力较弱 |

更多来自 DeepMind Blog

Gemma 4 以“智能体优先”架构问世,重新定义开源AI战略Gemma 4 的发布,标志着开源AI生态系统步入一个成熟新阶段。它不再仅仅追求在静态基准测试上追赶闭源模型,其核心创新在于明确为“高级推理与智能体工作流”进行架构设计。这意味着模型的权重、训练目标和架构选择,都针对自主系统所需的核心能力进对话式AI的静默革命:Gemini Flash等实时模型如何消除“机械停顿”对话式AI领域正在经历一场关键却低调的转型。当公众目光聚焦于炫目的视频生成或日益庞大的语言模型时,另一条战线上正进行着至关重要的战役:将延迟降低至难以察觉的水平。谷歌近期发布的Gemini 3.1 Flash Live正是该方向的集中突破,无标题In a significant move to redefine progress in artificial intelligence, DeepMind has unveiled a new cognitive assessment 查看来源专题页DeepMind Blog 已收录 4 篇文章

相关专题

embodied AI63 篇相关文章

时间归档

April 20261252 篇已发布文章

延伸阅读

为何家庭环境正成为物理通用人工智能的终极试炼场通用人工智能的竞赛正从数字领域转向物理世界,而家庭已成为其最严苛的舞台。新加坡K3风投对SynapX的战略投资标志着一个关键行业转折——业界正押注于通过解决家庭生活中混乱、长尾的复杂问题,来锻造真正物理通用人工智能的基础能力。事件中心世界模型:赋予具身AI透明心智的记忆架构人工智能感知物理世界的方式正经历根本性重构。研究人员正超越不透明的端到端神经网络,为机器人构建基于事件的记忆系统。这一架构有望为可靠的具身智能补全关键拼图:常识与可解释性。地瓜机器人27亿美元豪赌具身智能,全球自动化迎来范式转移地瓜机器人近日完成总额27亿美元的B轮融资,其中最新一笔达15亿美元,创下机器人史上最大单笔投资之一。这笔巨额资本标志着一个深刻的行业转向:从专用自动化迈向能在动态现实场景中运作的通用认知机器。资金将全力推动其机器人即服务(RaaS)模式的资本为何追逐人形机器人,却冷落利润丰厚的物流自动化?机器人投资领域正上演一场显著的资本错配。风险资金疯狂涌入追逐遥远通用愿景的人形机器人初创公司,而物流与物料搬运领域的专业具身AI系统,正凭借成熟技术悄然创造可观经济回报。这种分野迫使我们思考一个根本问题:投资应优先考虑形态,还是实效?

常见问题

这次公司发布“Gemini Robotics-ER 1.6 Delivers Spatial Commonsense, Unlocking Real-World Robot Deployment”主要讲了什么?

The release of Gemini Robotics-ER 1.6 constitutes more than a routine version update—it represents a strategic reorientation of embodied AI development priorities. The platform's c…

从“Gemini Robotics ER 1.6 vs Boston Dynamics Spot for warehouse automation”看,这家公司的这次发布为什么值得关注?

At its architectural core, ER 1.6 employs a hybrid system that combines neural radiance fields (NeRF) for dense 3D reconstruction with transformer-based models for spatial relationship reasoning. Unlike previous systems…

围绕“spatial reasoning AI for retail inventory robots cost comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。