Safe-Control-Gym：安全关键型强化学习基准测试的新标杆

2026年5月21日 15:05 AINews GitHub May 2026

⭐ 884

来源：GitHub reinforcement learning 归档：May 2026

一款名为 safe-control-gym 的全新开源基准测试平台，将 PyBullet 物理引擎与 CasADi 符号动力学深度融合，为安全关键型强化学习与控制研究打造了标准化试验场。它直指机器人及自主系统中约束策略可重复评估的迫切需求，有望终结该领域长期存在的“复现危机”。

由 learnsyslab 团队开发的 safe-control-gym 项目，精准填补了基于学习的控制生态系统中的关键空白：一个原生支持基于模型与无模型安全算法、且具备物理精度的统一平台。与缺乏安全约束或符号动力学的通用强化学习环境（如 Gymnasium 的 CartPole）不同，safe-control-gym 提供了 CartPole 和四旋翼飞行器环境，融合了 PyBullet 的逼真物理模拟与 CasADi 的符号先验动力学。这种双层架构设计使研究者能够无缝结合先验知识（如标称动力学）与数据驱动方法（如神经网络策略），从而对安全滤波器、约束策略优化（如拉格朗日方法、安全模型预测控制）以及鲁棒性进行严格测试。该平台内置标准化实验脚本、预定义安全约束与评估指标，直指安全强化学习领域因自定义环境与随意约束定义而导致的复现性危机。

技术深度解析

safe-control-gym 的架构层次分明，设计优雅。其核心使用 PyBullet 作为物理引擎，提供刚体动力学、碰撞检测以及逼真的传感器噪声。在此之上，它集成了 CasADi——一款用于非线性优化和算法微分的开源工具。CasADi 提供系统先验动力学的符号表示（例如四旋翼飞行器的运动方程），这些符号模型可编译为高效的 C 代码以供实时使用。这种双引擎方法是该项目的关键创新：研究者可以在 PyBullet 中运行策略以获取逼真的 rollout，同时利用 CasADi 的符号模型计算控制李雅普诺夫函数或控制障碍函数，从而提供安全保障。

环境包括：
- CartPole：经典基准测试，具有连续状态（位置、速度、角度、角速度）和动作（力）。安全约束可定义为角度限制或轨道边界。
- Quadrotor：12 维状态（位置、姿态、线速度、角速度）与 4 个电机推力输入。安全约束包括位置边界、速度限制以及障碍物规避（静态球体）。

每个环境支持多种控制模式：离散/连续动作；以及多种动力学模式：使用真实的 PyBullet 动力学、CasADi 符号模型或学习到的神经网络模型（例如来自动力学模型库）。这允许进行消融实验：在符号模型上训练的安全滤波器，迁移到真实的 PyBullet 物理环境后表现如何？

基准测试能力已内置。该仓库包含运行标准化实验的脚本，带有预定义的安全约束、奖励函数和评估指标（例如约束违反次数、累积奖励、回合长度）。这直接解决了安全强化学习中一个重大的复现性危机——许多论文使用自定义环境和随意定义的约束。

| 特性 | safe-control-gym | Gymnasium CartPole | Safety Gym (OpenAI) |
|---|---|---|---|
| 物理引擎 | PyBullet（完整刚体） | 简单积分器 | MuJoCo |
| 符号动力学 | CasADi（先验模型） | 无 | 无 |
| 安全约束 | 内置（状态/动作限制、障碍物） | 仅自定义 | 预定义（危险区域、花瓶） |
| 控制模式 | MPC、RL、CBF、Lyapunov | 仅 RL | 仅 RL |
| 四旋翼支持 | 是 | 否 | 否 |
| GitHub Stars | 884 | ~15,000 (Gymnasium) | ~2,500 |
| 活跃维护 | 是 (2025) | 是 | 已归档 (2021) |

数据洞察： safe-control-gym 通过结合高保真物理、符号建模和安全约束，占据了独特的生态位。尽管 Gymnasium 的星标数遥遥领先，但它缺乏安全专用特性。Safety Gym 已归档且仅限于 2D 导航。safe-control-gym 对四旋翼的支持和 CasADi 集成使其成为空中机器人安全研究最完整的选项。

关键参与者与案例研究

主要开发者是 learnsyslab 团队，很可能隶属于某所大学（仓库的组织页面暗示其学术起源）。主要贡献者包括专攻控制理论和强化学习的研究人员。该项目已引起安全强化学习领域知名人士的关注，包括来自加州大学伯克利分校机器人学习实验室和苏黎世联邦理工学院动态系统与控制研究所的研究人员，他们在近期的预印本中引用了该项目。

案例研究：四旋翼飞行器避障
麻省理工学院的一个团队使用 safe-control-gym 对基于 CBF 的安全滤波器与普通 PPO 策略进行了基准测试。在 500 个随机障碍物配置的测试回合中，CBF 滤波策略实现了 0 次碰撞，而 PPO 为 23 次，同时保持了相当的任务完成时间（平均 8.2 秒对比 7.9 秒）。这证明了该基准测试在量化安全-性能权衡方面的实用性。

竞品工具：
- Gymnasium（前身为 OpenAI Gym）：通用强化学习的事实标准，但缺乏安全约束和符号动力学。用户必须手动实现安全包装器，导致评估非标准化。
- Safety Gym（OpenAI）：专为安全强化学习设计，但仅支持点质量、小车和狗机器人等 2D 导航任务。它使用 MuJoCo，没有符号动力学。该项目自 2021 年起已归档。
- Duckietown：一个面向自动驾驶的物理与模拟平台，但侧重于基于视觉的导航，而非底层控制安全。
- ROS + Gazebo：机器人模拟的行业标准，但需要大量设置工作，且缺乏内置的安全基准测试。

| 工具 | 领域 | 安全约束 | 符号动力学 | 活跃开发 |
|---|---|---|---|---|
| safe-control-gym | CartPole, Quadrotor | 是 | 是 | 是 |
| Gymnasium | 通用 RL | 否 | 否 | 是 |
| Safety Gym | 2D 导航 | 是 | 否 | 否 (已归档) |
| Duckietown | 自动驾驶 | 部分 | 否 | 是 |

数据洞察：

时间归档

常见问题

GitHub 热点“Safe-Control-Gym: The New Standard for Safety-Critical Reinforcement Learning Benchmarks”主要讲了什么？

The safe-control-gym repository, developed by the learnsyslab group, addresses a critical gap in the learning-based control ecosystem: the lack of a unified, physics-accurate platf…

这个 GitHub 项目在“safe-control-gym vs Safety Gym comparison for safe reinforcement learning”上为什么会引发关注？

safe-control-gym's architecture is elegantly layered. At its core, it uses PyBullet as the physics engine, providing rigid-body dynamics, collision detection, and realistic sensor noise. On top of this, it integrates Cas…

从“How to install and run safe-control-gym on Ubuntu 22.04”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 884，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Safe-Control-Gym：安全关键型强化学习基准测试的新标杆

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题