Safety Gym:OpenAI 用约束强化学习为可信 AI 立下的安全标杆

GitHub June 2026
⭐ 601
来源:GitHubOpenAI归档:June 2026
OpenAI 推出 Safety Gym,一套专为测试安全探索算法而设计的标准化连续控制任务集。该工具包对于开发能在真实环境中可靠运行的 AI 系统至关重要,正推动着可信 AI 的前沿发展。

OpenAI 正式发布了 Safety Gym,这是一个专为加速强化学习中安全探索研究而设计的工具包。该平台提供了一系列连续控制任务——例如机器人导航与物体推拉——这些任务融入了明确的安全约束,如碰撞规避与力限制。通过标准化评估指标并与主流强化学习框架集成,Safety Gym 旨在成为约束强化学习研究的事实基准。该项目直击 AI 安全中的一个根本性缺口:确保学习智能体在探索环境时不会造成伤害,这是在家庭、工厂和公共场所部署自主系统的先决条件。Safety Gym 的任务基于 MuJoCo 物理引擎构建,并提供可配置的难度等级。

技术深度解析

Safety Gym 基于 MuJoCo 物理模拟器构建,提供九种不同的任务,分为导航与操作两大类。每个任务涉及一个智能体(点质量、小车或“狗”式机器人),它必须在避开危险物、花瓶和其他障碍物的同时达成目标。其关键的架构创新在于将奖励函数(目标达成)与成本函数(安全违规)明确分离。这种双目标公式是约束马尔可夫决策过程(CMDP)的核心,而 CMDP 正是安全强化学习的理论基础。

约束 MDP 公式:
- 状态空间: 连续,包括智能体姿态、速度以及传感器读数(激光雷达、加速度计)。
- 动作空间: 连续,通常为 2D 或 4D 控制信号(力、扭矩)。
- 奖励: 稀疏或密集奖励,用于到达目标。
- 成本: 每次安全违规(例如与危险物碰撞)的惩罚。
- 约束: 期望累积成本必须保持在阈值以下(例如每个回合 0.1)。

Safety Gym 包含多种安全强化学习算法的基线实现,所有代码均可在官方 GitHub 仓库(openai/safety-gym)中找到。这些算法包括:
- 约束策略优化(CPO): 一种信任域方法,通过二阶近似来强制执行约束。
- 拉格朗日方法(例如 PPO-Lagrangian、TRPO-Lagrangian): 用由学习到的拉格朗日乘子加权的惩罚项来增强奖励。
- 内点法: 使用障碍函数将策略严格限制在可行区域内。

基准性能:
下表比较了基线算法在 Safety Gym `PointGoal1` 任务(含一个危险物的导航任务)上的性能,数据来自原始论文并经社区复现。

| 算法 | 平均奖励 | 平均成本 | 成本违规率 | 训练时间(小时) |
|---|---|---|---|---|
| PPO(无约束) | 45.2 | 12.8 | 85% | 2.1 |
| PPO-Lagrangian | 42.1 | 1.2 | 8% | 2.3 |
| CPO | 40.5 | 0.9 | 6% | 3.5 |
| TRPO-Lagrangian | 43.0 | 1.0 | 7% | 2.8 |
| 内点法 | 38.7 | 0.5 | 3% | 4.0 |

数据要点: 无约束的 PPO 获得了最高奖励,但 85% 的时间都违反了安全约束,使其在真实场景中无法使用。约束方法以适度降低 5-15% 的奖励为代价,换来了成本违规次数的大幅减少(降低 10 倍)。CPO 和 TRPO-Lagrangian 提供了最佳的奖励-成本权衡,而内点法以更长的训练时间为代价,实现了最低的违规率。

开源生态系统: GitHub 上的 safety-gym 仓库(目前拥有 601 颗星)正在积极维护中,包含:
- 预构建的环境,难度可配置(9 个任务,3 种机器人类型)。
- 用于 OpenAI Gym 和 Stable-Baselines3 的封装器。
- 用于复现基准结果的脚本。
- 用于策略行为的可视化工具。

一个相关的仓库 `safe-control-gym`(由剑桥大学开发)通过基于 PyBullet 的无人机和四旋翼控制环境扩展了 Safety Gym,展示了该工具包在 OpenAI 之外的影响力。

关键参与者与案例研究

Safety Gym 处于多个研究社区的交汇点:强化学习、机器人学和 AI 安全。关键参与者包括:

OpenAI: 主要开发者,利用其在大规模强化学习(例如 Dota 2、魔方)方面的专长来应对安全问题。Safety Gym 是其更广泛安全研究组合的一部分,该组合还包括 `Safety Gridworlds`(用于离散动作空间)和 `Spinning Up` 强化学习教育工具包。

加州大学伯克利分校(安全强化学习实验室): Joshua Achiam(现任职于 OpenAI)和 Pieter Abbeel 等研究人员开创了约束强化学习算法。Achiam 的 CPO 论文(2017 年)是许多 Safety Gym 基线算法的理论基础。

DeepMind: 虽然未直接为 Safety Gym 做出贡献,但 DeepMind 在 `Sparrow`(一个带有安全规则的对话智能体)和 `Rainbow`(分布式强化学习)方面的工作为更广泛的安全探索领域提供了信息。DeepMind 的 `Behaviour Suite for Reinforcement Learning`(bsuite)通过关注泛化和探索,对 Safety Gym 形成了补充。

行业应用:
- 机器人公司(例如 Boston Dynamics、Fetch Robotics): 使用约束强化学习原理确保机器人在自主导航过程中避免碰撞。Safety Gym 提供了一个标准化的测试平台,用于在部署前比较安全算法。
- 自动驾驶(例如 Waymo、Cruise): 虽然未直接使用 Safety Gym,但其底层的 CMDP 框架被应用于带有碰撞约束的运动规划。Waymo 的 `ChauffeurNet` 使用带有安全过滤器的模仿学习,这是一种相关的方法。
- 制造业(例如 Siemens、ABB): 工业机器人需要力限制控制,以避免损坏产品或伤害工人。Safety Gym 的 `Push` 任务模拟了此类场景。

安全强化学习工具包对比:

| 工具包 | 开发者 | 动作空间 |
|---|---|---|
| Safety Gym | OpenAI | 连续 |
| Safety Gridworlds | OpenAI | 离散 |
| bsuite | DeepMind | 离散/连续 |
| safe-control-gym | 剑桥大学 | 连续 |

更多来自 GitHub

CLIPort:语言引导机器人操作的新基线,让机器人听懂“把红方块放进蓝杯子”CLIPort由麻省理工学院和英伟达的研究人员共同开发,是连接语言与机器人操作领域的一次重大飞跃。该框架采用双流架构:由CLIP(对比语言-图像预训练)驱动的“是什么”通路负责物体语义理解,而基于Transporter Networks的“生产级Agentic RAG课程:从Demo到部署的实战桥梁jamwithai/production-agentic-rag-course仓库迅速成为GitHub上最受关注的AI工程资源之一,单日获得6724颗星。这门课程并非又一篇关于检索增强生成(RAG)的理论入门,而是一套以代码为先的实操课程,克劳德宪法:Anthropic激进AI对齐蓝图的内幕Anthropic发布Claude宪法,标志着AI透明度领域的一个分水岭时刻。与大多数竞争对手使用的黑箱对齐方法不同,Anthropic公开了指导Claude决策的75多项原则。这部宪法汲取了多元来源,包括《联合国世界人权宣言》、苹果服务条查看来源专题页GitHub 已收录 2331 篇文章

相关专题

OpenAI137 篇相关文章

时间归档

June 2026309 篇已发布文章

延伸阅读

Ory Hydra:支撑OpenAI认证基础设施的OpenID Connect引擎Ory Hydra正在重新定义平台如何大规模处理授权。这款用Go编写的OpenID认证OAuth 2.1提供商,被OpenAI所信赖,通过无头API将认证与授权解耦,为单体式身份解决方案提供了模块化、高性能的替代方案。RLHF-V:用细粒度修正终结视觉模型幻觉,精准对齐多模态大模型多模态大模型虽能看图说话,却常“自信地胡说”。CVPR 2024 论文 RLHF-V 提出一种新方法,将人类反馈的强化学习(RLHF)从序列级奖励细化到 token 级修正,为视觉语言任务中的幻觉问题提供了根本性解决方案,树立了可信 AI 进化策略:OpenAI 无梯度强化学习替代方案,颠覆传统认知OpenAI 发布 evolution-strategies-starter 代码库,为论文《进化策略作为强化学习的可扩展替代方案》提供官方实现。该研究证明,进化算法在 MuJoCo 基准测试中能与强化学习性能匹敌,同时实现更简单的部署与大HumanEval:OpenAI的代码基准如何重塑AI编程评估范式OpenAI的HumanEval基准从根本上改变了AI社区评估代码生成模型的方式。它通过引入函数级、基于执行的测试框架,超越了肤浅的代码相似度指标,转向衡量程序的实际正确性。这一标准如今正驱动着整个AI编程领域的竞争格局。

常见问题

GitHub 热点“Safety Gym: OpenAI's Benchmark for Trustworthy AI Through Constrained RL”主要讲了什么?

OpenAI has released Safety Gym, a dedicated toolkit designed to accelerate research in safe exploration for reinforcement learning. The platform provides a set of continuous contro…

这个 GitHub 项目在“How to install and run Safety Gym on Ubuntu 22.04”上为什么会引发关注?

Safety Gym is built on the MuJoCo physics simulator and provides a set of nine distinct tasks divided into two categories: navigation and manipulation. Each task involves an agent (a point mass, car, or doggo robot) that…

从“Safety Gym vs Safety Gridworlds: which benchmark is better for your research”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 601,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。