技术深度解析
ER 1.6 的架构核心采用了一种混合系统,它将用于密集三维重建的神经辐射场(NeRF)与基于 Transformer 模型的空间关系推理相结合。与以往将感知和规划作为独立流程处理的系统不同,ER 1.6 实现了一个紧密耦合的感知-行动循环,空间理解能够实时直接影响运动决策。
该平台的空间推理模块建立在改进版的 Scene Representation Transformer (SRT) 架构之上,该架构已被扩展以处理动态环境。这使得机器人能够维持一个持久的三维场景表征,并随着机器人移动和物体被操作而持续更新。至关重要的是,该系统整合了 Gemini Robotics 研究人员所称的‘遮挡感知补全’能力——即能够根据上下文线索以及学习到的物体关系先验知识,推断部分可见或完全被遮挡物体的可能形状和位置。
对于多视角理解,ER 1.6 采用了一种新颖的注意力机制,无需在初始设置后进行显式校准,即可在不同摄像机视角间对齐特征。这在零售环境中尤其有价值,因为货架摄像头、移动机器人摄像头和固定顶置摄像头必须提供关于库存状态的一致统一视图。
与上一代系统相比的性能基准测试显示出显著提升:
| 指标 | ER 1.5 | ER 1.6 | 提升幅度 |
|---|---|---|---|
| 物体定位准确率(杂乱场景) | 78.2% | 92.7% | +14.5% |
| 遮挡推理成功率 | 61.5% | 85.3% | +23.8% |
| 多视角一致性得分 | 0.72 | 0.91 | +26.4% |
| 新任务规划时间 | 4.8秒 | 1.9秒 | -60.4% |
| 实际部署异常率 | 22.1% | 8.7% | -60.6% |
数据要点: 最显著的改进在于遮挡推理和异常率降低——这正是非结构化环境中可靠运行所需的关键能力。新任务规划时间减少60%,表明系统已从暴力搜索转向更直观、类人的推理方式。
与此技术方向一致的开源组件包括 NVIDIA 的 Isaac Sim(用于仿真到现实的迁移)和 MIT 的 Habitat 3.0(用于具身 AI 训练)。虽然 Gemini Robotics 尚未开源其核心架构,但其已发表的研究引用了对 Facebook DETR(DEtection TRansformer)的改编(用于物体关系建模)以及 UC Berkeley 的 NERFstudio(用于实时神经渲染)。
主要参与者与案例研究
Gemini Robotics 现在直接对标 Boston Dynamics(及其 Spot 平台)等老牌玩家,以及 Covariant 和 Robust.AI 等新进入者。ER 1.6 的与众不同之处在于其专注于认知空间理解,而非纯粹的运动能力或操作技巧。
Boston Dynamics 的 Spot 擅长在复杂地形上动态移动,但在执行复杂任务时严重依赖预编程例程或遥操作。Covariant 的 RFM-1 强调语言驱动的操作,但对大规模空间导航的关注较少。ER 1.6 试图通过在一个统一的空间理解框架内同时提供鲁棒的导航和复杂的操作能力,来弥合这些领域之间的差距。
早期部署案例研究揭示了该平台的变革潜力:
* DHL Supply Chain 已在欧洲三个分销中心部署了搭载 ER 1.6 的机器人,用于混合箱体的码垛。机器人成功处理了方向和大小时刻变化的来料箱体,与之前的自动化系统相比,减少了约35%的体力劳动需求,同时吞吐量提高了22%。
* Walmart 正在超级中心测试该平台用于夜间库存扫描和缺货检测。机器人在顾客在场时穿行于货架间,识别错放商品和低库存状况的准确率达到97%,远高于其之前基于 RFID 系统实现的78%。
* Siemens Logistics 已将 ER 1.6 集成到机场行李处理系统中,机器人必须在动态变化的环境(有移动的手推车、人员和其他设备)中导航,同时跟踪数百件独特的行李。
对领先的具身 AI 平台的比较分析揭示了不同的战略方向:
| 平台 | 主要优势 | 部署重点 | 关键局限 |
|---|---|---|---|
| Gemini Robotics ER 1.6 | 空间常识与多视角推理 | 物流、零售、轻工业 | 极限移动能力有限(不适用于崎岖地形) |
| Boston Dynamics Spot | 动态移动与稳定控制 | 巡检、安防、建筑 | 高级任务推理需要大量编程 |
| Covariant RFM-1 | 语言引导的操作 | 仓库分拣、包装 | 大规模环境导航能力较弱 |