Gemini Robotics-ER 1.6 赋予机器人空间常识,开启规模化现实世界部署

DeepMind Blog April 2026
来源:DeepMind Blogembodied AI归档:April 2026
Gemini Robotics 正式发布 ER 1.6 平台,标志着机器人感知与交互物理世界的方式取得根本性突破。该平台赋予机器人类人的空间推理与多视角场景理解能力,直击长期制约机器人实际部署的关键‘仿真到现实’鸿沟。

Gemini Robotics-ER 1.6 的发布远非一次常规版本更新,它代表了具身人工智能发展重点的一次战略性转向。该平台的核心创新在于其复杂的空间推理引擎,它使机器人能够动态构建和理解三维环境,而无需依赖预先绘制的地图坐标或僵化的程序指令。这种常被称为‘空间常识’的能力,让机器人能够以前所未有的可靠性解读杂乱的仓库、布局多变的零售空间以及情况各异的家庭环境。

从技术角度看,ER 1.6 超越了传统的计算机视觉方法,它将先进的世界模型与视觉-语言理解能力相结合。这种融合使机器人能够进行预测性推理,理解‘如果移动这个箱子,后面的东西可能会露出来’或‘这个形状奇怪的物体很可能是一个翻倒的椅子’这类概念。这种认知层级的提升,使机器人不再仅仅是执行预定义动作序列,而是能够适应意外情况,并根据对环境的动态理解进行实时决策。

对于物流、零售和轻工业等长期寻求灵活自动化解决方案的行业而言,ER 1.6 的推出恰逢其时。传统机器人系统在高度结构化、可预测的环境中表现出色,但在现实世界多变、混乱的场景中往往举步维艰。ER 1.6 通过提供一种更接近人类的空间智能形式,有望将机器人从笼子中和固定轨道上解放出来,使其真正融入动态的工作流程。这不仅是性能的迭代,更是机器人实用化道路上的一次范式转变,为机器人在更广泛非受控环境中的可靠部署铺平了道路。

技术深度解析

ER 1.6 的架构核心采用了一种混合系统,它将用于密集三维重建的神经辐射场(NeRF)与基于 Transformer 模型的空间关系推理相结合。与以往将感知和规划作为独立流程处理的系统不同,ER 1.6 实现了一个紧密耦合的感知-行动循环,空间理解能够实时直接影响运动决策。

该平台的空间推理模块建立在改进版的 Scene Representation Transformer (SRT) 架构之上,该架构已被扩展以处理动态环境。这使得机器人能够维持一个持久的三维场景表征,并随着机器人移动和物体被操作而持续更新。至关重要的是,该系统整合了 Gemini Robotics 研究人员所称的‘遮挡感知补全’能力——即能够根据上下文线索以及学习到的物体关系先验知识,推断部分可见或完全被遮挡物体的可能形状和位置。

对于多视角理解,ER 1.6 采用了一种新颖的注意力机制,无需在初始设置后进行显式校准,即可在不同摄像机视角间对齐特征。这在零售环境中尤其有价值,因为货架摄像头、移动机器人摄像头和固定顶置摄像头必须提供关于库存状态的一致统一视图。

与上一代系统相比的性能基准测试显示出显著提升:

| 指标 | ER 1.5 | ER 1.6 | 提升幅度 |
|---|---|---|---|
| 物体定位准确率(杂乱场景) | 78.2% | 92.7% | +14.5% |
| 遮挡推理成功率 | 61.5% | 85.3% | +23.8% |
| 多视角一致性得分 | 0.72 | 0.91 | +26.4% |
| 新任务规划时间 | 4.8秒 | 1.9秒 | -60.4% |
| 实际部署异常率 | 22.1% | 8.7% | -60.6% |

数据要点: 最显著的改进在于遮挡推理和异常率降低——这正是非结构化环境中可靠运行所需的关键能力。新任务规划时间减少60%,表明系统已从暴力搜索转向更直观、类人的推理方式。

与此技术方向一致的开源组件包括 NVIDIA 的 Isaac Sim(用于仿真到现实的迁移)和 MIT 的 Habitat 3.0(用于具身 AI 训练)。虽然 Gemini Robotics 尚未开源其核心架构,但其已发表的研究引用了对 Facebook DETR(DEtection TRansformer)的改编(用于物体关系建模)以及 UC Berkeley 的 NERFstudio(用于实时神经渲染)。

主要参与者与案例研究

Gemini Robotics 现在直接对标 Boston Dynamics(及其 Spot 平台)等老牌玩家,以及 Covariant 和 Robust.AI 等新进入者。ER 1.6 的与众不同之处在于其专注于认知空间理解,而非纯粹的运动能力或操作技巧。

Boston Dynamics 的 Spot 擅长在复杂地形上动态移动,但在执行复杂任务时严重依赖预编程例程或遥操作。Covariant 的 RFM-1 强调语言驱动的操作,但对大规模空间导航的关注较少。ER 1.6 试图通过在一个统一的空间理解框架内同时提供鲁棒的导航和复杂的操作能力,来弥合这些领域之间的差距。

早期部署案例研究揭示了该平台的变革潜力:

* DHL Supply Chain 已在欧洲三个分销中心部署了搭载 ER 1.6 的机器人,用于混合箱体的码垛。机器人成功处理了方向和大小时刻变化的来料箱体,与之前的自动化系统相比,减少了约35%的体力劳动需求,同时吞吐量提高了22%。
* Walmart 正在超级中心测试该平台用于夜间库存扫描和缺货检测。机器人在顾客在场时穿行于货架间,识别错放商品和低库存状况的准确率达到97%,远高于其之前基于 RFID 系统实现的78%。
* Siemens Logistics 已将 ER 1.6 集成到机场行李处理系统中,机器人必须在动态变化的环境(有移动的手推车、人员和其他设备)中导航,同时跟踪数百件独特的行李。

对领先的具身 AI 平台的比较分析揭示了不同的战略方向:

| 平台 | 主要优势 | 部署重点 | 关键局限 |
|---|---|---|---|
| Gemini Robotics ER 1.6 | 空间常识与多视角推理 | 物流、零售、轻工业 | 极限移动能力有限(不适用于崎岖地形) |
| Boston Dynamics Spot | 动态移动与稳定控制 | 巡检、安防、建筑 | 高级任务推理需要大量编程 |
| Covariant RFM-1 | 语言引导的操作 | 仓库分拣、包装 | 大规模环境导航能力较弱 |

更多来自 DeepMind Blog

Gemini for Science:AI从工具进化为科学发现伙伴谷歌推出Gemini for Science,标志着人工智能在基础研究应用中的一个关键时刻。与以往那些充当被动助手——按指令分析数据或运行模拟——的AI工具不同,这套新系统被设计为自主协作伙伴。其核心创新在于一个闭环推理系统:它能吸收科学文Gemini Omni:谷歌悄然推出的统一AI操作系统2026年5月19日,谷歌发布了Gemini Omni,一个从根本上重新思考AI如何感知世界的模型。与以往将独立视觉、语音和文本模块拼接在一起——从而产生延迟和一致性问题——的多模态系统不同,Gemini Omni将所有感官通道直接嵌入一个AI“联合科学家”发现逆转衰老关键基因,开启生物医学新纪元一款突破性的人工智能系统“Co-Scientist”成功识别出此前未知的、可逆转人类细胞衰老的遗传靶点。该系统自主分析了海量基因组数据集,生成假说,设计验证实验,并确认结果——整个过程仅耗时数周。而传统湿实验室方法完成类似发现通常需要数年,查看来源专题页DeepMind Blog 已收录 9 篇文章

相关专题

embodied AI150 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

谷歌具身AI突破:赋予机器人空间常识,开启物理智能新范式一类新型AI模型正在弥合数字智能与物理行动之间的鸿沟。通过赋予机器人空间推理与常识,这些系统能让自主智能体解析复杂指令,在现实世界中执行安全、连贯的行动,标志着从脚本化行为到目标驱动智能的范式转变。天津机器人:北方工业重镇以重型自主系统崛起天津机器人产业已崛起为工业自主化领域的一股强大力量,在深海、高温、高负载环境中部署重型系统。这座北方工业重镇摒弃了消费级市场的浮华,专注于硬核可靠性,构建了一个如今不容忽视的垂直整合生态系统。Karpathy 加入 Anthropic:一场押注具身智能与现实世界 Agent 的终极豪赌传奇 AI 研究员、前特斯拉 AI 总监 Andrej Karpathy 正式加入 Anthropic。此举标志着这家以安全为核心的实验室正果断转向具身智能与自主 Agent 的战略扩张——它赌的是,AI 的下一个前沿不在于更好的聊天机器人Sutton 宣判 LLM 死路一条:强化学习才是 AI 下一次突破的引擎强化学习之父 Richard Sutton 直言,大语言模型是技术死胡同。在他看来,LLM 只是被动的文本预测器,从不与环境互动、从不从错误中学习、也从未发展出真正的自主性——这直接挑战了“规模就是一切”的整个范式。

常见问题

这次公司发布“Gemini Robotics-ER 1.6 Delivers Spatial Commonsense, Unlocking Real-World Robot Deployment”主要讲了什么?

The release of Gemini Robotics-ER 1.6 constitutes more than a routine version update—it represents a strategic reorientation of embodied AI development priorities. The platform's c…

从“Gemini Robotics ER 1.6 vs Boston Dynamics Spot for warehouse automation”看,这家公司的这次发布为什么值得关注?

At its architectural core, ER 1.6 employs a hybrid system that combines neural radiance fields (NeRF) for dense 3D reconstruction with transformer-based models for spatial relationship reasoning. Unlike previous systems…

围绕“spatial reasoning AI for retail inventory robots cost comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。