Mercury 2对决PinchBench：扩散模型如何重塑具身AI的首次真实试炼

自MMLU、HumanEval等基准测试问世以来，AI评估领域正经历最具深远意义的演变。PinchBench标志着对静态知识测试的根本性背离，它将大模型置于名为OpenClaw的模拟3D环境中，其成功标准是通过精确、连续的动作（如操控物体）完成物理任务的能力。这种从被动智能到主动能动性的转变，是开发真正有用AI助手的核心挑战。

近期，基于扩散架构的模型Mercury 2在PinchBench上的评估结果尤其具有启示性。以生成连贯图像和视频闻名的扩散模型，将一种概率性、迭代的去噪过程应用于动作规划问题。Mercury 2的表现不仅展示了技术可行性，更揭示了行业的关键转向：AI的前沿阵地正从纯粹的对话能力，转向在动态物理世界中体现出的具身推理与可靠行动能力。这一转变预示着下一代AI助手必须融合语言理解、物理常识与实时控制，而PinchBench这类基准测试正是检验这种综合能力的试金石。

PinchBench构建于OpenClaw环境之上，模拟了一个配备平行夹爪的机器人操纵器。任务以自然语言定义（例如“将红色方块堆叠在蓝色圆柱体上”），要求AI生成一系列底层运动指令以实现目标，同时需应对物理特性、部分可观测性及潜在的失败状态。Mercury 2的成功表明，将扩散模型应用于此领域，不仅在架构上是创新，在理念上也重新定义了动作规划——将其视为条件生成建模问题。模型从噪声开始，结合目标描述和当前状态观察，通过迭代去噪生成连贯的动作计划。这种范式类似于Stable Diffusion通过逐步细化噪声生成图像，但这里的“画布”是机器人关节角度或末端执行器位置的时间序列。

相关开源项目正在涌现以支持这一范式。例如，来自卡内基梅隆大学和谷歌研究人员的`diffusion_policy` GitHub仓库已获得显著关注（超过2.5k星标），它提供了实现基于扩散的视觉运动策略的工具包，并在真实世界机器人操作任务上展示了最先进的结果。另一个项目`OpenVLA`（Open Vision-Language-Action）则是RT-2等模型的开源复现，为构建可在PinchBench等基准上微调的具身模型奠定了基础。

技术深度解析

PinchBench的核心并非另一个数据集，而是一个交互式模拟框架，它要求整合三项历史上相互独立的AI能力：自然语言理解、几何与物理推理以及闭环控制。该基准测试构建于OpenClaw环境之上，该环境模拟了一个配备平行夹爪的机器人操纵器。任务以自然语言定义（例如“将红色方块堆叠在蓝色圆柱体上”），要求AI生成一系列底层运动指令以实现目标，同时需应对物理特性、部分可观测性及潜在的失败状态。

将扩散模型应用于此领域的创新，正如Mercury 2所例证，既是架构上的，也是哲学上的。机器人学中的传统方法通常采用分层方法：高层规划器（通常基于LLM）分解任务，底层控制器（使用强化学习或经典方法）执行。这种流水线是脆弱的，因为错误会在各层级间累积。

Mercury 2将动作规划重新定义为条件生成建模问题。给定目标描述和当前状态（观察结果），模型被训练用于生成最优动作序列。扩散过程的工作原理如下：
1. 前向过程：从干净的动作轨迹开始，迭代添加噪声，直至其变成纯高斯噪声。
2. 反向过程（推理）：模型学习逆转此过程——从噪声和条件输入（目标、状态）开始，迭代去噪以产生连贯的动作计划。这种迭代优化允许模型在动作空间中进行概率性探索和优化，使其对模糊指令和新颖情况更具鲁棒性。

这类似于Stable Diffusion通过逐步细化噪声生成图像的方式，但这里的“画布”是机器人关节角度或末端执行器位置的时间序列。关键的技术推动因素包括使用视觉语言模型（VLM）将场景观察编码为与文本指令融合的潜在表示，以及采用时序U-Net架构在动作序列的时间维度上进行去噪。

支持这一范式的相关开源项目正在涌现。来自卡内基梅隆大学和谷歌研究人员的`diffusion_policy` GitHub仓库已获得显著关注（超过2.5k星标）。它提供了实现基于扩散的视觉运动策略的工具包，并在真实世界机器人操作任务上展示了最先进的结果。另一个项目`OpenVLA`（Open Vision-Language-Action）则是RT-2等模型的开源复现，为构建可在PinchBench等基准上微调的具身模型奠定了基础。

| 基准测试组件 | 测试内容 | 对LLM/扩散模型的挑战 |
|---|---|---|
| 指令解析 | 从文本中理解空间关系与物体属性。 | 消除歧义（当多个物体都“小”时指代“那个小方块”）。 |
| 状态估计 | 从视觉输入解读3D场景。 | 遮挡、光照变化、新物体。 |
| 长时程规划 | 将目标分解为有效的子目标序列。 | 组合爆炸；从序列中段失败中恢复。 |
| 底层控制 | 生成精确、动态可行的运动指令。 | 仿真到现实的差距；执行器噪声与延迟。 |
| 闭环适应 | 对意外结果（如方块滑落）做出反应。 | 需要快速重新规划；大多数模型是开环的。 |

数据启示：PinchBench的多组件设计揭示了具身AI的整体性挑战。成功需要在能力链的每个环节都表现出色，其中任何一个环节的失败（如糟糕的状态估计）都会导致整个任务失败，这凸显了像Mercury 2这样的集成架构为何至关重要。

关键参与者与案例研究

向具身AI的推进正在催生新的联盟和竞争前沿。参与者可按其核心优势分类：基础模型开发者、机器人专家和集成智能体平台。

1. 基础模型开发者押注“行动”作为一种模态：
* 谷歌DeepMind：RT（Robotics Transformer）系列的先驱。RT-1和RT-2证明，在大规模机器人数据上训练的Transformer模型可以跨任务和具体形态泛化。他们在Genie（一种生成式交互环境模型）上的工作指向了用于规划的世界模型学习。他们的战略是利用来自学术实验室和自家机器人的海量数据，构建具备通用能力的“行动基础模型”。
* OpenAI：尽管在机器人领域以保密著称，但其对Figure AI的投资以及GPT-4和o1的多模态推理能力，暗示了其向具身领域迈进的必然趋势。

常见问题

这次模型发布“Mercury 2 vs. PinchBench: How Diffusion Models Are Redefining Embodied AI's First Real Test”的核心内容是什么？

The AI evaluation landscape is undergoing its most consequential evolution since the introduction of benchmarks like MMLU or HumanEval. PinchBench represents a fundamental departur…

从“How does Mercury 2 diffusion model work for robotics?”看，这个模型发布为什么重要？

At its core, PinchBench is not merely another dataset; it's an interactive simulation framework that demands integration of three historically separate AI capabilities: natural language understanding, geometric and physi…

围绕“What is the PinchBench benchmark and how is it scored?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。