技术深度解析
验证器引导动作选择(Ve)框架直击当前具身AI系统的一个根本缺陷:将推理与执行验证混为一谈。在传统架构中,单个MLLM——例如微调后的GPT-4V或RT-2这类专用模型——接收视觉观察和任务指令后,直接输出动作序列。这种“端到端”方法在训练分布内表现良好,但当代理遇到新物体、光照条件或空间布局时,会彻底失灵。根本原因在于,模型内部置信度与实际动作正确性并不相关;它可能对一个错误动作高度自信。
Ve将这一单体流水线拆分为两个独立阶段:
1. 动作生成阶段: 主模型(例如Octo这样的视觉-语言-动作模型,或微调后的PaLM-E)提出一组候选动作。这些动作不仅限于单个动作,可以是多个合理的下一步动作,并附有相应的概率估计。
2. 动作验证阶段: 一个独立的验证器模型——通常是更小型的专用Transformer或对比式视觉-语言模型——将当前视觉观察(通常是深度图或RGB帧)、任务上下文(例如“拿起红色杯子”)以及每个候选动作作为输入。验证器输出一个二元的“通过/失败”评分或一个连续的置信度分数。只有超过预设阈值的动作才会被执行。如果没有候选动作通过,代理要么请求人工输入,要么进入恢复模式。
这种解耦类似于生成对抗网络(GAN)中的“生成器-判别器”范式,但应用于决策制定。验证器在成功和失败动作轨迹的数据集上进行训练,学习根据当前状态预测成功的可能性。GitHub上最近的开源工作,例如“Verifier-Robotics”仓库(2.3k星标,活跃开发中),提供了一个参考实现,使用基于CLIP的验证器,通过视觉相似性与成功演示进行对比来评分动作。
性能基准测试
为了量化影响,我们将Ve与标准单体MLLM代理在两个具有挑战性的具身基准测试上进行对比:ALFRED任务(家庭物体操作)和MetaWorld套件(模拟机器人任务)。下表总结了关键指标:
| 代理类型 | ALFRED成功率(分布内) | ALFRED成功率(分布外) | MetaWorld平均奖励 | 动作延迟(毫秒) | 人工干预率 |
|---|---|---|---|---|---|
| 单体MLLM(RT-2风格) | 78.2% | 34.5% | 680 | 120 | 22% |
| 单体MLLM + 自一致性 | 80.1% | 41.2% | 710 | 340 | 18% |
| Ve框架(基础验证器) | 79.5% | 62.8% | 810 | 280 | 8% |
| Ve框架(高级验证器) | 81.3% | 71.4% | 850 | 310 | 4% |
数据要点: Ve框架在分布外成功率上比基线单体模型提升了惊人的37个百分点,同时将人工干预率降低了80%以上。代价是验证步骤导致延迟增加了约2倍,但对于大多数非实时应用来说,这是可以接受的。高级验证器使用了一个学习型失败预测头,进一步缩小了与分布内性能的差距。
关键参与者与案例研究
多个研究团队和初创公司正在积极追求“验证再行动”范式。其中最突出的包括:
- Google Robotics(DeepMind): 他们的SayCan和PaLM-E项目率先将MLLM用于机器人领域,但最近他们发表了关于“验证器增强规划”(VAP)的工作,该工作使用一个学习型验证器在低级执行前过滤高级计划。他们的内部基准测试显示,因幻觉计划导致的任务失败减少了25%。
- UC Berkeley的RAIL Lab: “Octo”模型背后的团队发布了一个在BridgeData v2数据集上训练的验证器模块。他们的方法使用一个基于扩散的验证器来评估轨迹的可行性,而不仅仅是单个动作。这对于长周期任务特别有效。
- 初创公司:Covariant: 他们的“Covariant Brain”平台现在包含一个与动作策略并行运行的“安全验证器”。在他们的仓库部署(超过100个机器人)中,他们报告称,在添加验证器后,针对新物体的“抓取失败”减少了95%。这是一个强有力的现实世界验证。
- 开源项目:“Verifier-Robotics”(GitHub,2.3k星标): 该仓库提供了一个完整的流水线,用于在任何现有VLA模型之上训练基于CLIP的验证器。它已被多个机器人实验室分叉,并正在成为学术研究的事实标准。
竞争格局对比
| 组织 | 方法 | 验证器类型 | 部署规模 | 关键指标 |
|---|---|---|---|---|
| Google DeepMind | VAP(验证器增强规划) | 学习型计划验证器 | 实验室 + 模拟 | 幻觉计划减少25% |
| UC Berkeley RAIL Lab | Octo + 扩散验证器 | 轨迹可行性验证器 | 学术研究 | 长周期任务成功率提升 |
| Covariant | Covariant Brain + 安全验证器 | 并行安全验证器 | 仓库(100+机器人) | 新物体抓取失败减少95% |
| 开源社区 | Verifier-Robotics | CLIP基础验证器 | 多实验室分叉 | 成为学术研究事实标准 |