Safety Gym：OpenAI 用约束强化学习为可信 AI 立下的安全标杆

OpenAI 正式发布了 Safety Gym，这是一个专为加速强化学习中安全探索研究而设计的工具包。该平台提供了一系列连续控制任务——例如机器人导航与物体推拉——这些任务融入了明确的安全约束，如碰撞规避与力限制。通过标准化评估指标并与主流强化学习框架集成，Safety Gym 旨在成为约束强化学习研究的事实基准。该项目直击 AI 安全中的一个根本性缺口：确保学习智能体在探索环境时不会造成伤害，这是在家庭、工厂和公共场所部署自主系统的先决条件。Safety Gym 的任务基于 MuJoCo 物理引擎构建，并提供可配置的难度等级。

技术深度解析

Safety Gym 基于 MuJoCo 物理模拟器构建，提供九种不同的任务，分为导航与操作两大类。每个任务涉及一个智能体（点质量、小车或“狗”式机器人），它必须在避开危险物、花瓶和其他障碍物的同时达成目标。其关键的架构创新在于将奖励函数（目标达成）与成本函数（安全违规）明确分离。这种双目标公式是约束马尔可夫决策过程（CMDP）的核心，而 CMDP 正是安全强化学习的理论基础。

约束 MDP 公式：
- 状态空间： 连续，包括智能体姿态、速度以及传感器读数（激光雷达、加速度计）。
- 动作空间： 连续，通常为 2D 或 4D 控制信号（力、扭矩）。
- 奖励： 稀疏或密集奖励，用于到达目标。
- 成本： 每次安全违规（例如与危险物碰撞）的惩罚。
- 约束： 期望累积成本必须保持在阈值以下（例如每个回合 0.1）。

Safety Gym 包含多种安全强化学习算法的基线实现，所有代码均可在官方 GitHub 仓库（openai/safety-gym）中找到。这些算法包括：
- 约束策略优化（CPO）： 一种信任域方法，通过二阶近似来强制执行约束。
- 拉格朗日方法（例如 PPO-Lagrangian、TRPO-Lagrangian）： 用由学习到的拉格朗日乘子加权的惩罚项来增强奖励。
- 内点法： 使用障碍函数将策略严格限制在可行区域内。

基准性能：
下表比较了基线算法在 Safety Gym `PointGoal1` 任务（含一个危险物的导航任务）上的性能，数据来自原始论文并经社区复现。

| 算法 | 平均奖励 | 平均成本 | 成本违规率 | 训练时间（小时） |
|---|---|---|---|---|
| PPO（无约束） | 45.2 | 12.8 | 85% | 2.1 |
| PPO-Lagrangian | 42.1 | 1.2 | 8% | 2.3 |
| CPO | 40.5 | 0.9 | 6% | 3.5 |
| TRPO-Lagrangian | 43.0 | 1.0 | 7% | 2.8 |
| 内点法 | 38.7 | 0.5 | 3% | 4.0 |

数据要点： 无约束的 PPO 获得了最高奖励，但 85% 的时间都违反了安全约束，使其在真实场景中无法使用。约束方法以适度降低 5-15% 的奖励为代价，换来了成本违规次数的大幅减少（降低 10 倍）。CPO 和 TRPO-Lagrangian 提供了最佳的奖励-成本权衡，而内点法以更长的训练时间为代价，实现了最低的违规率。

开源生态系统： GitHub 上的 safety-gym 仓库（目前拥有 601 颗星）正在积极维护中，包含：
- 预构建的环境，难度可配置（9 个任务，3 种机器人类型）。
- 用于 OpenAI Gym 和 Stable-Baselines3 的封装器。
- 用于复现基准结果的脚本。
- 用于策略行为的可视化工具。

一个相关的仓库 `safe-control-gym`（由剑桥大学开发）通过基于 PyBullet 的无人机和四旋翼控制环境扩展了 Safety Gym，展示了该工具包在 OpenAI 之外的影响力。

关键参与者与案例研究

Safety Gym 处于多个研究社区的交汇点：强化学习、机器人学和 AI 安全。关键参与者包括：

OpenAI： 主要开发者，利用其在大规模强化学习（例如 Dota 2、魔方）方面的专长来应对安全问题。Safety Gym 是其更广泛安全研究组合的一部分，该组合还包括 `Safety Gridworlds`（用于离散动作空间）和 `Spinning Up` 强化学习教育工具包。

加州大学伯克利分校（安全强化学习实验室）： Joshua Achiam（现任职于 OpenAI）和 Pieter Abbeel 等研究人员开创了约束强化学习算法。Achiam 的 CPO 论文（2017 年）是许多 Safety Gym 基线算法的理论基础。

DeepMind： 虽然未直接为 Safety Gym 做出贡献，但 DeepMind 在 `Sparrow`（一个带有安全规则的对话智能体）和 `Rainbow`（分布式强化学习）方面的工作为更广泛的安全探索领域提供了信息。DeepMind 的 `Behaviour Suite for Reinforcement Learning`（bsuite）通过关注泛化和探索，对 Safety Gym 形成了补充。

行业应用：
- 机器人公司（例如 Boston Dynamics、Fetch Robotics）： 使用约束强化学习原理确保机器人在自主导航过程中避免碰撞。Safety Gym 提供了一个标准化的测试平台，用于在部署前比较安全算法。
- 自动驾驶（例如 Waymo、Cruise）： 虽然未直接使用 Safety Gym，但其底层的 CMDP 框架被应用于带有碰撞约束的运动规划。Waymo 的 `ChauffeurNet` 使用带有安全过滤器的模仿学习，这是一种相关的方法。
- 制造业（例如 Siemens、ABB）： 工业机器人需要力限制控制，以避免损坏产品或伤害工人。Safety Gym 的 `Push` 任务模拟了此类场景。

安全强化学习工具包对比：

| 工具包 | 开发者 | 动作空间 |
|---|---|---|
| Safety Gym | OpenAI | 连续 |
| Safety Gridworlds | OpenAI | 离散 |
| bsuite | DeepMind | 离散/连续 |
| safe-control-gym | 剑桥大学 | 连续 |

时间归档

延伸阅读

常见问题

GitHub 热点“Safety Gym: OpenAI's Benchmark for Trustworthy AI Through Constrained RL”主要讲了什么？

OpenAI has released Safety Gym, a dedicated toolkit designed to accelerate research in safe exploration for reinforcement learning. The platform provides a set of continuous contro…

这个 GitHub 项目在“How to install and run Safety Gym on Ubuntu 22.04”上为什么会引发关注？

Safety Gym is built on the MuJoCo physics simulator and provides a set of nine distinct tasks divided into two categories: navigation and manipulation. Each task involves an agent (a point mass, car, or doggo robot) that…

从“Safety Gym vs Safety Gridworlds: which benchmark is better for your research”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 601，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。