技术深度解析
PinchBench的核心并非另一个数据集,而是一个交互式模拟框架,它要求整合三项历史上相互独立的AI能力:自然语言理解、几何与物理推理以及闭环控制。该基准测试构建于OpenClaw环境之上,该环境模拟了一个配备平行夹爪的机器人操纵器。任务以自然语言定义(例如“将红色方块堆叠在蓝色圆柱体上”),要求AI生成一系列底层运动指令以实现目标,同时需应对物理特性、部分可观测性及潜在的失败状态。
将扩散模型应用于此领域的创新,正如Mercury 2所例证,既是架构上的,也是哲学上的。机器人学中的传统方法通常采用分层方法:高层规划器(通常基于LLM)分解任务,底层控制器(使用强化学习或经典方法)执行。这种流水线是脆弱的,因为错误会在各层级间累积。
Mercury 2将动作规划重新定义为条件生成建模问题。给定目标描述和当前状态(观察结果),模型被训练用于生成最优动作序列。扩散过程的工作原理如下:
1. 前向过程:从干净的动作轨迹开始,迭代添加噪声,直至其变成纯高斯噪声。
2. 反向过程(推理):模型学习逆转此过程——从噪声和条件输入(目标、状态)开始,迭代去噪以产生连贯的动作计划。这种迭代优化允许模型在动作空间中进行概率性探索和优化,使其对模糊指令和新颖情况更具鲁棒性。
这类似于Stable Diffusion通过逐步细化噪声生成图像的方式,但这里的“画布”是机器人关节角度或末端执行器位置的时间序列。关键的技术推动因素包括使用视觉语言模型(VLM)将场景观察编码为与文本指令融合的潜在表示,以及采用时序U-Net架构在动作序列的时间维度上进行去噪。
支持这一范式的相关开源项目正在涌现。来自卡内基梅隆大学和谷歌研究人员的`diffusion_policy` GitHub仓库已获得显著关注(超过2.5k星标)。它提供了实现基于扩散的视觉运动策略的工具包,并在真实世界机器人操作任务上展示了最先进的结果。另一个项目`OpenVLA`(Open Vision-Language-Action)则是RT-2等模型的开源复现,为构建可在PinchBench等基准上微调的具身模型奠定了基础。
| 基准测试组件 | 测试内容 | 对LLM/扩散模型的挑战 |
|---|---|---|
| 指令解析 | 从文本中理解空间关系与物体属性。 | 消除歧义(当多个物体都“小”时指代“那个小方块”)。 |
| 状态估计 | 从视觉输入解读3D场景。 | 遮挡、光照变化、新物体。 |
| 长时程规划 | 将目标分解为有效的子目标序列。 | 组合爆炸;从序列中段失败中恢复。 |
| 底层控制 | 生成精确、动态可行的运动指令。 | 仿真到现实的差距;执行器噪声与延迟。 |
| 闭环适应 | 对意外结果(如方块滑落)做出反应。 | 需要快速重新规划;大多数模型是开环的。 |
数据启示:PinchBench的多组件设计揭示了具身AI的整体性挑战。成功需要在能力链的每个环节都表现出色,其中任何一个环节的失败(如糟糕的状态估计)都会导致整个任务失败,这凸显了像Mercury 2这样的集成架构为何至关重要。
关键参与者与案例研究
向具身AI的推进正在催生新的联盟和竞争前沿。参与者可按其核心优势分类:基础模型开发者、机器人专家和集成智能体平台。
1. 基础模型开发者押注“行动”作为一种模态:
* 谷歌DeepMind:RT(Robotics Transformer)系列的先驱。RT-1和RT-2证明,在大规模机器人数据上训练的Transformer模型可以跨任务和具体形态泛化。他们在Genie(一种生成式交互环境模型)上的工作指向了用于规划的世界模型学习。他们的战略是利用来自学术实验室和自家机器人的海量数据,构建具备通用能力的“行动基础模型”。
* OpenAI:尽管在机器人领域以保密著称,但其对Figure AI的投资以及GPT-4和o1的多模态推理能力,暗示了其向具身领域迈进的必然趋势。