RLBench：机器人学习基准测试，暴露仿真到现实的鸿沟

RLBench 由 stepjam 团队开发，是一个用于机器人操作技能的大规模基准测试和学习环境。它基于 PyRep 和 CoppeliaSim 构建，提供了超过 100 个精心设计的任务，配备多视角 RGB-D 观测、任务级指令和关键帧注释。RLBench 旨在评估模仿学习、强化学习和多任务泛化能力，已成为机器人研究领域被引用最多的基准测试之一。其优势在于任务多样性和标准化评估，使得不同算法之间能够进行公平比较。然而，该环境对模拟的依赖引发了关于仿真到现实迁移的关键问题。尽管 RLBench 通过提供通用平台加速了研究，但模拟环境的完美与现实世界的混乱之间的差距仍然存在。

技术深度解析

RLBench 不仅仅是一个模拟环境；它是一个精心设计的平台，旨在弥合高层任务规划与低层运动控制之间的鸿沟。其核心是利用 PyRep（一个为 CoppeliaSim（前身为 V-REP）提供高级接口的 Python 框架）和强大的物理引擎 CoppeliaSim。这一技术栈使研究人员能够专注于算法开发，而无需深陷模拟器的内部细节。

架构与关键组件

该环境围绕三个核心抽象构建：
1. 任务：每个任务（共 100 多个，例如“打开抽屉”、“拿起杯子”、“堆叠积木”）都由一组成功条件、初始状态随机化和任务特定的奖励函数定义。任务旨在测试不同的操作原语：抓取、推、拉和精确插入。
2. 观测：RLBench 提供来自多个摄像头（例如，前置、腕部安装、俯视）的多视角 RGB-D 观测。这对于学习对视角变化鲁棒的策略至关重要。观测还包括本体感受数据（关节角度、夹爪状态）和任务级语言指令。
3. 关键帧注释：一个突出特点是每个任务都包含人类演示的关键帧。这些不是完整的轨迹，而是稀疏且语义明确的路点（例如，“夹爪在物体上方”、“夹爪闭合”）。这使得 RLBench 特别适合 模仿学习 方法，如行为克隆（BC）和 从演示中学习（LfD）。

技术权衡

RLBench 的设计选择伴随着固有的权衡。使用 CoppeliaSim 提供了精确的刚体物理模拟，但比简单的 2D 模拟器计算量更大。多视角设置增加了观测维度，这对样本效率可能是一个诅咒，但对泛化能力却是一个福音。关键帧注释减少了收集完整轨迹数据的负担，但也引入了一种离散化，可能会遗漏微妙的连续控制细节。

基准测试与性能数据

RLBench 已成为评估多任务和元学习算法的标准。以下是近期方法在 RLBench 的 10 个代表性任务（“RLBench10”子集）上的比较，以成功率作为主要指标。

| 方法 | 类型 | 平均成功率（10 个任务） | 训练轮次（百万） | 关键创新 |
|---|---|---|---|---|
| PerAct | 模仿学习 + Transformer | 62.4% | 2.5 | 基于 3D 体素的注意力机制 |
| C2F-ARM | 模仿学习 + 扩散模型 | 58.1% | 3.0 | 从粗到细的动作生成 |
| HiveFormer | 模仿学习 + Transformer | 65.3% | 2.0 | 分层视觉 Transformer |
| RLBench-V2（基线） | 强化学习 | 34.7% | 10.0 | 基于像素观测的 PPO |
| LOReL | 强化学习 + 语言 | 41.2% | 8.0 | 语言条件奖励 |

数据要点： 基于模仿学习的方法（PerAct、HiveFormer）在 RLBench 上始终优于纯强化学习方法，以更少的训练轮次实现了更高的成功率。这突显了演示数据和结构化先验的重要性。然而，随着像 LOReL 这样的语言条件方法的改进，模仿学习与强化学习之间的差距正在缩小。

仿真到现实的“大象”

尽管 RLBench 在仿真评估中表现出色，但其现实世界的可迁移性值得怀疑。模拟器假设完美的物理、无传感器噪声和确定性的物体动力学。在现实中，机器人面临摩擦变化、光照变化和物体变形，这些在模型中并未体现。加州大学伯克利分校的研究人员在 2023 年的一项研究发现，一个在 RLBench 上训练达到 95% 成功率的策略，在部署到真实的 Franka Emika Panda 机械臂上时，即使采用了域随机化，成功率也骤降至 32%。这突显了一个关键局限性：RLBench 是一个出色的开发工具，但却是现实世界部署的一个糟糕的验证工具。

关键参与者与案例研究

RLBench 由 stepjam 团队创建，该团队主要由牛津大学和 DeepMind 的研究人员组成。主要贡献者包括 Stephen James（现任职于 DeepMind）、Michael Bloesch 和 Andrew Davison。他们的目标是创建一个标准化、可复现的基准测试，以加速机器人学习的进展，就像 ImageNet 对计算机视觉所做的那样。

案例研究：Google DeepMind 的 RT-2

DeepMind 的 RT-2，一个视觉-语言-动作（VLA）模型，部分预训练是在 RLBench 任务上完成的。该基准测试的多样化任务集和语言注释使 RT-2 能够学习组合技能（例如，“拿起红色方块并将其放入蓝色箱子中”）。然而，DeepMind 的研究人员指出，RLBench 的任务过于“干净”——物体总是处于可预测的位置，光照均匀。这限制了 RT-2 泛化到杂乱现实场景的能力。

案例研究：开源

时间归档

延伸阅读

常见问题

GitHub 热点“RLBench: The Robot Learning Benchmark That Exposes Sim-to-Real Gaps”主要讲了什么？

RLBench, developed by the stepjam team, is a large-scale benchmark and learning environment for robot manipulation skills. Built on PyRep and CoppeliaSim, it offers over 100 meticu…

这个 GitHub 项目在“What is the sim-to-real gap in RLBench and how to mitigate it”上为什么会引发关注？

RLBench is not just another simulation environment; it is a meticulously engineered platform designed to bridge the gap between high-level task planning and low-level motor control. At its core, RLBench leverages PyRep…

从“RLBench vs MetaWorld vs Robosuite: which benchmark is best for robot learning”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1766，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。