Mercury 2对决PinchBench:扩散模型如何重塑具身AI的首次真实试炼

Hacker News March 2026
来源:Hacker Newsembodied AIroboticsAI agents归档:March 2026
名为PinchBench的全新基准测试正将AI模型从聊天窗口推向模拟3D世界,考验其理解、规划与行动能力。基于扩散架构的模型Mercury 2在此测试中的表现,标志着一个关键的行业转折:AI的前沿正由具身推理与可靠物理行动定义,而不仅仅是对话。

自MMLU、HumanEval等基准测试问世以来,AI评估领域正经历最具深远意义的演变。PinchBench标志着对静态知识测试的根本性背离,它将大模型置于名为OpenClaw的模拟3D环境中,其成功标准是通过精确、连续的动作(如操控物体)完成物理任务的能力。这种从被动智能到主动能动性的转变,是开发真正有用AI助手的核心挑战。

近期,基于扩散架构的模型Mercury 2在PinchBench上的评估结果尤其具有启示性。以生成连贯图像和视频闻名的扩散模型,将一种概率性、迭代的去噪过程应用于动作规划问题。Mercury 2的表现不仅展示了技术可行性,更揭示了行业的关键转向:AI的前沿阵地正从纯粹的对话能力,转向在动态物理世界中体现出的具身推理与可靠行动能力。这一转变预示着下一代AI助手必须融合语言理解、物理常识与实时控制,而PinchBench这类基准测试正是检验这种综合能力的试金石。

PinchBench构建于OpenClaw环境之上,模拟了一个配备平行夹爪的机器人操纵器。任务以自然语言定义(例如“将红色方块堆叠在蓝色圆柱体上”),要求AI生成一系列底层运动指令以实现目标,同时需应对物理特性、部分可观测性及潜在的失败状态。Mercury 2的成功表明,将扩散模型应用于此领域,不仅在架构上是创新,在理念上也重新定义了动作规划——将其视为条件生成建模问题。模型从噪声开始,结合目标描述和当前状态观察,通过迭代去噪生成连贯的动作计划。这种范式类似于Stable Diffusion通过逐步细化噪声生成图像,但这里的“画布”是机器人关节角度或末端执行器位置的时间序列。

相关开源项目正在涌现以支持这一范式。例如,来自卡内基梅隆大学和谷歌研究人员的`diffusion_policy` GitHub仓库已获得显著关注(超过2.5k星标),它提供了实现基于扩散的视觉运动策略的工具包,并在真实世界机器人操作任务上展示了最先进的结果。另一个项目`OpenVLA`(Open Vision-Language-Action)则是RT-2等模型的开源复现,为构建可在PinchBench等基准上微调的具身模型奠定了基础。

技术深度解析

PinchBench的核心并非另一个数据集,而是一个交互式模拟框架,它要求整合三项历史上相互独立的AI能力:自然语言理解几何与物理推理以及闭环控制。该基准测试构建于OpenClaw环境之上,该环境模拟了一个配备平行夹爪的机器人操纵器。任务以自然语言定义(例如“将红色方块堆叠在蓝色圆柱体上”),要求AI生成一系列底层运动指令以实现目标,同时需应对物理特性、部分可观测性及潜在的失败状态。

扩散模型应用于此领域的创新,正如Mercury 2所例证,既是架构上的,也是哲学上的。机器人学中的传统方法通常采用分层方法:高层规划器(通常基于LLM)分解任务,底层控制器(使用强化学习或经典方法)执行。这种流水线是脆弱的,因为错误会在各层级间累积。

Mercury 2将动作规划重新定义为条件生成建模问题。给定目标描述和当前状态(观察结果),模型被训练用于生成最优动作序列。扩散过程的工作原理如下:
1. 前向过程:从干净的动作轨迹开始,迭代添加噪声,直至其变成纯高斯噪声。
2. 反向过程(推理):模型学习逆转此过程——从噪声和条件输入(目标、状态)开始,迭代去噪以产生连贯的动作计划。这种迭代优化允许模型在动作空间中进行概率性探索和优化,使其对模糊指令和新颖情况更具鲁棒性。

这类似于Stable Diffusion通过逐步细化噪声生成图像的方式,但这里的“画布”是机器人关节角度或末端执行器位置的时间序列。关键的技术推动因素包括使用视觉语言模型(VLM)将场景观察编码为与文本指令融合的潜在表示,以及采用时序U-Net架构在动作序列的时间维度上进行去噪。

支持这一范式的相关开源项目正在涌现。来自卡内基梅隆大学和谷歌研究人员的`diffusion_policy` GitHub仓库已获得显著关注(超过2.5k星标)。它提供了实现基于扩散的视觉运动策略的工具包,并在真实世界机器人操作任务上展示了最先进的结果。另一个项目`OpenVLA`(Open Vision-Language-Action)则是RT-2等模型的开源复现,为构建可在PinchBench等基准上微调的具身模型奠定了基础。

| 基准测试组件 | 测试内容 | 对LLM/扩散模型的挑战 |
|---|---|---|
| 指令解析 | 从文本中理解空间关系与物体属性。 | 消除歧义(当多个物体都“小”时指代“那个小方块”)。 |
| 状态估计 | 从视觉输入解读3D场景。 | 遮挡、光照变化、新物体。 |
| 长时程规划 | 将目标分解为有效的子目标序列。 | 组合爆炸;从序列中段失败中恢复。 |
| 底层控制 | 生成精确、动态可行的运动指令。 | 仿真到现实的差距;执行器噪声与延迟。 |
| 闭环适应 | 对意外结果(如方块滑落)做出反应。 | 需要快速重新规划;大多数模型是开环的。 |

数据启示:PinchBench的多组件设计揭示了具身AI的整体性挑战。成功需要在能力链的每个环节都表现出色,其中任何一个环节的失败(如糟糕的状态估计)都会导致整个任务失败,这凸显了像Mercury 2这样的集成架构为何至关重要。

关键参与者与案例研究

向具身AI的推进正在催生新的联盟和竞争前沿。参与者可按其核心优势分类:基础模型开发者、机器人专家和集成智能体平台。

1. 基础模型开发者押注“行动”作为一种模态:
* 谷歌DeepMindRT(Robotics Transformer)系列的先驱。RT-1和RT-2证明,在大规模机器人数据上训练的Transformer模型可以跨任务和具体形态泛化。他们在Genie(一种生成式交互环境模型)上的工作指向了用于规划的世界模型学习。他们的战略是利用来自学术实验室和自家机器人的海量数据,构建具备通用能力的“行动基础模型”。
* OpenAI:尽管在机器人领域以保密著称,但其对Figure AI的投资以及GPT-4o1的多模态推理能力,暗示了其向具身领域迈进的必然趋势。

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

相关专题

embodied AI126 篇相关文章robotics21 篇相关文章AI agents690 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

OpenAI 9.4亿美元押注Isara:战略转向具身AI,剑指物理世界主导权OpenAI以9400万美元投资机器人初创公司Isara,标志着其战略重心已超越数字领域,向物理世界实质性扩张。此举旨在将大语言模型根植于实体经验,构建一个能在现实世界中训练高级AI智能体的统一平台,是AI发展优先级的一次根本性转变。从聊天机器人到控制器:AI智能体如何成为现实世界的操作系统人工智能领域正经历一场从静态语言模型到动态控制系统的范式转移。这些自主智能体能够感知复杂环境、制定计划并执行行动,推动AI从顾问角色转变为从机器人系统到企业工作流的实际操控者。AI智能体如何逆向工程《GTA》:自主理解数字世界的黎明一项突破性实验展示了AI智能体自主逆向工程《侠盗猎车手:圣安地列斯》数字世界的能力。该智能体的目标并非通关获胜,而是以科学方法探究游戏底层逻辑与运行机制。这标志着AI从被动工具向主动探索者的关键跃迁——它开始构建任意软件的认知模型。流映射重写生成式AI:从渐进式去噪到一步生成一种名为“流映射”的全新数学框架,直接学习扩散过程的“积分”——即流映射本身,而非逐步去噪的增量步骤。它将训练与采样统一,有望将数百步推理压缩为单次前向传播,从根本上重塑生成式AI的成本结构。

常见问题

这次模型发布“Mercury 2 vs. PinchBench: How Diffusion Models Are Redefining Embodied AI's First Real Test”的核心内容是什么?

The AI evaluation landscape is undergoing its most consequential evolution since the introduction of benchmarks like MMLU or HumanEval. PinchBench represents a fundamental departur…

从“How does Mercury 2 diffusion model work for robotics?”看,这个模型发布为什么重要?

At its core, PinchBench is not merely another dataset; it's an interactive simulation framework that demands integration of three historically separate AI capabilities: natural language understanding, geometric and physi…

围绕“What is the PinchBench benchmark and how is it scored?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。