Safe-Control-Gym:安全关键型强化学习基准测试的新标杆

GitHub May 2026
⭐ 884
来源:GitHubreinforcement learning归档:May 2026
一款名为 safe-control-gym 的全新开源基准测试平台,将 PyBullet 物理引擎与 CasADi 符号动力学深度融合,为安全关键型强化学习与控制研究打造了标准化试验场。它直指机器人及自主系统中约束策略可重复评估的迫切需求,有望终结该领域长期存在的“复现危机”。

由 learnsyslab 团队开发的 safe-control-gym 项目,精准填补了基于学习的控制生态系统中的关键空白:一个原生支持基于模型与无模型安全算法、且具备物理精度的统一平台。与缺乏安全约束或符号动力学的通用强化学习环境(如 Gymnasium 的 CartPole)不同,safe-control-gym 提供了 CartPole 和四旋翼飞行器环境,融合了 PyBullet 的逼真物理模拟与 CasADi 的符号先验动力学。这种双层架构设计使研究者能够无缝结合先验知识(如标称动力学)与数据驱动方法(如神经网络策略),从而对安全滤波器、约束策略优化(如拉格朗日方法、安全模型预测控制)以及鲁棒性进行严格测试。该平台内置标准化实验脚本、预定义安全约束与评估指标,直指安全强化学习领域因自定义环境与随意约束定义而导致的复现性危机。

技术深度解析

safe-control-gym 的架构层次分明,设计优雅。其核心使用 PyBullet 作为物理引擎,提供刚体动力学、碰撞检测以及逼真的传感器噪声。在此之上,它集成了 CasADi——一款用于非线性优化和算法微分的开源工具。CasADi 提供系统先验动力学的符号表示(例如四旋翼飞行器的运动方程),这些符号模型可编译为高效的 C 代码以供实时使用。这种双引擎方法是该项目的关键创新:研究者可以在 PyBullet 中运行策略以获取逼真的 rollout,同时利用 CasADi 的符号模型计算控制李雅普诺夫函数或控制障碍函数,从而提供安全保障。

环境包括:
- CartPole:经典基准测试,具有连续状态(位置、速度、角度、角速度)和动作(力)。安全约束可定义为角度限制或轨道边界。
- Quadrotor:12 维状态(位置、姿态、线速度、角速度)与 4 个电机推力输入。安全约束包括位置边界、速度限制以及障碍物规避(静态球体)。

每个环境支持多种控制模式:离散/连续动作;以及多种动力学模式:使用真实的 PyBullet 动力学、CasADi 符号模型或学习到的神经网络模型(例如来自动力学模型库)。这允许进行消融实验:在符号模型上训练的安全滤波器,迁移到真实的 PyBullet 物理环境后表现如何?

基准测试能力已内置。该仓库包含运行标准化实验的脚本,带有预定义的安全约束、奖励函数和评估指标(例如约束违反次数、累积奖励、回合长度)。这直接解决了安全强化学习中一个重大的复现性危机——许多论文使用自定义环境和随意定义的约束。

| 特性 | safe-control-gym | Gymnasium CartPole | Safety Gym (OpenAI) |
|---|---|---|---|
| 物理引擎 | PyBullet(完整刚体) | 简单积分器 | MuJoCo |
| 符号动力学 | CasADi(先验模型) | 无 | 无 |
| 安全约束 | 内置(状态/动作限制、障碍物) | 仅自定义 | 预定义(危险区域、花瓶) |
| 控制模式 | MPC、RL、CBF、Lyapunov | 仅 RL | 仅 RL |
| 四旋翼支持 | 是 | 否 | 否 |
| GitHub Stars | 884 | ~15,000 (Gymnasium) | ~2,500 |
| 活跃维护 | 是 (2025) | 是 | 已归档 (2021) |

数据洞察: safe-control-gym 通过结合高保真物理、符号建模和安全约束,占据了独特的生态位。尽管 Gymnasium 的星标数遥遥领先,但它缺乏安全专用特性。Safety Gym 已归档且仅限于 2D 导航。safe-control-gym 对四旋翼的支持和 CasADi 集成使其成为空中机器人安全研究最完整的选项。

关键参与者与案例研究

主要开发者是 learnsyslab 团队,很可能隶属于某所大学(仓库的组织页面暗示其学术起源)。主要贡献者包括专攻控制理论和强化学习的研究人员。该项目已引起安全强化学习领域知名人士的关注,包括来自加州大学伯克利分校机器人学习实验室和苏黎世联邦理工学院动态系统与控制研究所的研究人员,他们在近期的预印本中引用了该项目。

案例研究:四旋翼飞行器避障
麻省理工学院的一个团队使用 safe-control-gym 对基于 CBF 的安全滤波器与普通 PPO 策略进行了基准测试。在 500 个随机障碍物配置的测试回合中,CBF 滤波策略实现了 0 次碰撞,而 PPO 为 23 次,同时保持了相当的任务完成时间(平均 8.2 秒对比 7.9 秒)。这证明了该基准测试在量化安全-性能权衡方面的实用性。

竞品工具:
- Gymnasium(前身为 OpenAI Gym):通用强化学习的事实标准,但缺乏安全约束和符号动力学。用户必须手动实现安全包装器,导致评估非标准化。
- Safety Gym(OpenAI):专为安全强化学习设计,但仅支持点质量、小车和狗机器人等 2D 导航任务。它使用 MuJoCo,没有符号动力学。该项目自 2021 年起已归档。
- Duckietown:一个面向自动驾驶的物理与模拟平台,但侧重于基于视觉的导航,而非底层控制安全。
- ROS + Gazebo:机器人模拟的行业标准,但需要大量设置工作,且缺乏内置的安全基准测试。

| 工具 | 领域 | 安全约束 | 符号动力学 | 活跃开发 |
|---|---|---|---|---|
| safe-control-gym | CartPole, Quadrotor | 是 | 是 | 是 |
| Gymnasium | 通用 RL | 否 | 否 | 是 |
| Safety Gym | 2D 导航 | 是 | 否 | 否 (已归档) |
| Duckietown | 自动驾驶 | 部分 | 否 | 是 |

数据洞察:

更多来自 GitHub

Navigation2:悄然驱动自主机器人革命的开源“大脑”Navigation2已从简单的路径规划器进化为ROS生态系统中自主移动机器人(AMR)导航的事实标准。其核心在于用插件化系统取代了ROS 1的单一导航栈——全局规划器、局部规划器、代价地图、恢复行为等每个组件都是可替换的插件。该框架采用行Coral SQL层:AI智能体缺失的基础设施Coral(withcoral/coral)是一个新兴的开源项目,在GitHub上迅速走红,已收获超过3300颗星,单日增长达560颗。其核心主张看似简单:为AI智能体提供一个统一的SQL接口,让它们像查询数据库表一样查询API、文件和实时TurboVec:Rust驱动的向量索引,TurboQuant量化技术为AI检索注入“涡轮增压”由开发者ryancodrai创建的TurboVec是一款向量索引库,其核心集成了名为TurboQuant的新型量化方案。该库完全用Rust编写,并通过PyO3提供Python绑定,瞄准了大规模AI系统中对高速、低内存近似最近邻(ANN)搜索查看来源专题页GitHub 已收录 2101 篇文章

相关专题

reinforcement learning77 篇相关文章

时间归档

May 20262340 篇已发布文章

延伸阅读

KataGo Custom Fork Opens New Front in AI Alignment Research via GoA new GitHub repository, katago-custom, forks the powerful Go AI KataGo to create a controlled environment for AI alignmRobosuite分支:为机器人学习研究提供模块化仿真新选择作为ARISE-Initiative/robosuite仿真框架的一个分支,pearllhf/robosuite为开发和验证机器人操控算法提供了模块化环境。尽管其成熟的仿真能力和社区支持吸引了强化学习与模仿学习研究者,但该分支可能缺少主仓库Isaac Gym环境:NVIDIA的GPU并行模拟器如何成为机器人强化学习的事实标准基于NVIDIA Isaac Sim物理引擎构建的IsaacGymEnvs,已悄然成为现代机器人强化学习的基石。通过在单个GPU上并行运行数千个环境,它将训练时间从数天缩短至数小时。本文深入剖析其架构、权衡取舍,以及对具身智能未来的意义。进化策略:OpenAI 无梯度强化学习替代方案,颠覆传统认知OpenAI 发布 evolution-strategies-starter 代码库,为论文《进化策略作为强化学习的可扩展替代方案》提供官方实现。该研究证明,进化算法在 MuJoCo 基准测试中能与强化学习性能匹敌,同时实现更简单的部署与大

常见问题

GitHub 热点“Safe-Control-Gym: The New Standard for Safety-Critical Reinforcement Learning Benchmarks”主要讲了什么?

The safe-control-gym repository, developed by the learnsyslab group, addresses a critical gap in the learning-based control ecosystem: the lack of a unified, physics-accurate platf…

这个 GitHub 项目在“safe-control-gym vs Safety Gym comparison for safe reinforcement learning”上为什么会引发关注?

safe-control-gym's architecture is elegantly layered. At its core, it uses PyBullet as the physics engine, providing rigid-body dynamics, collision detection, and realistic sensor noise. On top of this, it integrates Cas…

从“How to install and run safe-control-gym on Ubuntu 22.04”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 884,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。