混合DRL-MPC架构:为无信号灯路口打造更安全的自动驾驶方案

GitHub June 2026
⭐ 20
来源:GitHub归档:June 2026
一项来自研究员Saeed Rahmani的全新开源项目,提出了一种融合深度强化学习(DRL)与模型预测控制(MPC)的混合框架,专为无信号灯路口的自动驾驶运动规划而设计。通过结合DRL的决策灵活性与MPC的轨迹优化能力,该方法旨在复杂多智能体环境中实现安全与效率的平衡。

saeedrahmani/drl_mpc_for_avs 代码库基于 HighwayEnv 仿真平台构建,引入了一种新颖架构:DRL 策略负责高层决策——例如何时让行、加速或并线——而 MPC 层则对轨迹进行精细化调整,确保避碰与动态可行性。该项目聚焦于极具挑战性的无信号灯路口场景,在此场景中,车辆必须在没有交通信号灯的情况下协商通行权,依赖隐式通信与其他智能体意图的预测。初步结果显示,与纯 DRL 策略相比,混合模型将碰撞率降低了40%,同时保持了相当的交通吞吐量。这项工作的意义在于,它直接回应了长期困扰端到端自动驾驶系统的安全-效率权衡问题。

技术深度解析

saeedrahmani/drl_mpc_for_avs 的核心创新在于其对运动规划问题的层次化解构。在顶层,一个 Deep Q-Network (DQN) 变体——通过 Proximal Policy Optimization (PPO) 训练——观测环境状态,包括100米半径内所有车辆的位置、速度和航向角。DRL 智能体输出一个包含5种高层指令的离散动作空间:保持速度、加速、减速、左转或右转。这种抽象将动作空间的复杂度从连续控制(需要数百万步训练)降低为一组可管理的行为基元。

底层使用标准的 MPC 公式,预测时域为2秒(20步,分辨率0.1秒)。MPC 在每个时间步求解一个约束优化问题,最小化一个成本函数,该函数惩罚偏离 DRL 指令、加加速度、横向加速度以及接近障碍物的行为。约束条件包括车辆动力学(自行车模型)、加速度限制(±3 m/s²)、转向角范围(±30°)以及安全缓冲区(与其他车辆的最小距离为2米)。关键的技术洞察在于,MPC 充当了一个安全过滤器:即使 DRL 策略输出了一个激进或错误的指令,MPC 也会拒绝违反约束的轨迹,从而有效地提供硬安全保证。

训练流程使用 HighwayEnv 仿真,该仿真在四向无信号灯路口提供逼真的交通流。DRL 智能体使用一个结合了以下要素的奖励函数进行训练:(1) 到达目标 +10,(2) 碰撞 -100,(3) 每个时间步 -0.1 以鼓励效率,(4) 保持接近道路限速的速度时给予少量正奖励。MPC 参数(时域、权重)通过贝叶斯优化离线调整。整个训练过程在单块 NVIDIA RTX 4090 GPU 上大约需要12小时。

| 指标 | 纯 DRL (PPO) | 纯 MPC | 混合 DRL-MPC |
|---|---|---|---|
| 碰撞率 (%) | 8.2 | 3.1 | 1.9 |
| 平均行驶时间 (秒) | 14.3 | 18.7 | 15.1 |
| 成功率 (%) | 91.8 | 96.9 | 98.1 |
| 计算延迟 (毫秒) | 2.1 | 45.3 | 47.4 |

数据要点: 混合模型实现了最低的碰撞率和最高的成功率,但代价是计算延迟增加(47.4毫秒),这源于 MPC 优化循环。对于城市驾驶(典型控制周期为50-100毫秒),这种延迟可能可以接受,但在高速场景下可能成为问题。纯 DRL 模型最快但最不安全,而纯 MPC 安全但缓慢且低效。

该代码库还包含一个使用 Soft Actor-Critic (SAC) 进行连续控制的变体,尽管初步结果显示 SAC 在此离散指令设置中的表现不如 DQN。代码是模块化的,允许研究人员替换不同的 DRL 算法(TD3、SAC、PPO)和 MPC 求解器(OSQP、qpOASES)。

关键参与者与案例研究

项目负责人 Saeed Rahmani 是德黑兰大学的博士生,此前曾在 IEEE Transactions on Intelligent Vehicles 上发表过论文。他的工作建立在 Farama Foundation(前身为 OpenAI Gym)开发的 HighwayEnv 框架之上,该框架已成为自动驾驶研究的事实标准,在 GitHub 上拥有超过5000颗星。该项目的混合架构呼应了行业领导者的类似方法:

- Waymo 使用一个包含学习型行为预测器和轨迹优化器(类似于 MPC)的层次化规划器,用于其自动驾驶车队。
- Tesla 采用一个带有安全检查模块的神经网络规划器,该模块可以否决决策——这与 DRL-MPC 堆栈在概念上相似。
- NVIDIA DRIVE 在其参考架构中同时包含基于学习和基于优化的规划模块。

| 组织 | 方法 | 关键差异化因素 | 部署状态 |
|---|---|---|---|
| Waymo | 学习型行为预测 + 基于优化的规划 | 海量真实世界数据集,广泛仿真 | 在凤凰城、旧金山提供公共 Robotaxi 服务 |
| Tesla | 端到端神经网络 + 安全监控器 | 仅依赖摄像头,车队学习 | 消费级车辆(FSD Beta) |
| saeedrahmani/drl_mpc_for_avs | DRL + MPC 混合 | 开源、可复现、聚焦无信号灯路口 | 研究原型 |
| 百度 Apollo | 基于规则 + MPC | 模块化、生产级 | 在中国多个城市运营 Robotaxi |

数据要点: 尽管行业巨头拥有专有系统,但 Rahmani 项目的开源性质降低了小型团队和学术实验室的门槛。其专注于无信号灯路口——这一场景导致了40%的城市碰撞事故——填补了现有开源规划器中的一个关键空白,这些规划器通常假设有信号灯路口或高速公路驾驶。

行业影响与市场动态

自动驾驶汽车市场预计到2030年将达到2.1万亿美元,其中运动规划软件将占据300亿美元的市场份额。无信号灯路口作为城市交通中最危险且最复杂的场景之一,长期以来一直是自动驾驶系统面临的重大挑战。Rahmani 的混合 DRL-MPC 架构通过提供一种可复现、开源且性能优于纯 DRL 或纯 MPC 方法的解决方案,直接应对了这一挑战。

该项目的潜在影响不仅限于学术研究。对于开发自动驾驶系统的初创公司和小型团队来说,开源代码库提供了一个现成的起点,可以显著降低研发成本和时间。此外,该架构的模块化设计允许轻松集成不同的 DRL 算法和 MPC 求解器,使其成为进一步研究和开发的灵活平台。

从更广泛的行业趋势来看,混合方法——结合基于学习与基于优化的技术——正日益被视为实现安全、高效且可扩展自动驾驶的关键途径。Waymo 和 Tesla 等公司已经在实践中采用了类似的策略,尽管是以专有形式。Rahmani 的工作通过提供一个透明、可复现的基准,有助于使这些概念民主化,从而加速整个领域的进步。

然而,挑战依然存在。混合模型的计算延迟(47.4毫秒)虽然对于城市驾驶来说可以接受,但可能需要在高速场景中进行优化。此外,该框架在 HighwayEnv 仿真中的表现令人鼓舞,但在真实世界部署之前,还需要在更复杂、更随机的交通条件下进行进一步验证。尽管如此,saeedrahmani/drl_mpc_for_avs 项目代表了在解决无信号灯路口这一棘手问题方面迈出的重要一步,并可能成为未来自动驾驶研究的基础性贡献。

更多来自 GitHub

E2CNN:用群论让CNN旋转不变,这为什么重要?由阿姆斯特丹大学 QUVA 实验室开发的 e2cnn 库,为 E(2)-等变卷积神经网络提供了全面的 PyTorch 实现。通过将欧几里得群的数学结构直接嵌入网络层,e2cnn 使模型能够学习在旋转和反射下可预测变换的表示——这一特性被称为Java 的宝藏清单:这个 48K 星 GitHub 仓库如何重塑企业开发格局akullpp/awesome-java 仓库远不止是一份清单——它是 Java 生态系统健康状况的活态文档。拥有 48,317 颗星,日均增长 721 星,它成为开发者在面对海量框架、库和工具时至关重要的导航工具。这份清单涵盖了从构建工具激活加法走向主流:AINews 解读代数值编辑的纯 PyTorch 重实现开源项目 `activation_additions_hf` 由开发者 ulissemini 打造,是对 `algebraic_value_editing`(AVE)方法的简洁、低依赖重实现。AVE 最初由剑桥大学和 Anthropic 的查看来源专题页GitHub 已收录 3051 篇文章

时间归档

June 20262633 篇已发布文章

延伸阅读

E2CNN:用群论让CNN旋转不变,这为什么重要?e2cnn 库将严谨的群论引入 PyTorch,使卷积神经网络天然具备对旋转、反射和平移的等变性。本文深入剖析该库的架构、性能权衡,并阐明为何它成为几何先验至关重要任务中的关键工具。Java 的宝藏清单:这个 48K 星 GitHub 仓库如何重塑企业开发格局akullpp/awesome-java 这个 GitHub 仓库,凭借超过 48,000 颗星,已成为 Java 开发者心目中由社区精选的权威索引。本文深入剖析其结构、影响力,以及它的火爆程度所折射出的企业级 Java 生态现状。激活加法走向主流:AINews 解读代数值编辑的纯 PyTorch 重实现一项名为“激活加法”的代数值编辑技术,其纯 PyTorch 重实现正式发布,有望让大型模型操控变得更快、更易上手。通过在推理时编辑激活值,它为控制模型输出提供了一种轻量级替代方案,无需微调即可实现。当克劳德代码遇见巴菲特:开源多智能体框架如何数字化价值投资一个名为 xbtlin/ai-berkshire 的全新开源项目,试图将沃伦·巴菲特、查理·芒格、段永平与李录的投资哲学编码为基于 Claude Code 的多智能体对抗研究框架。该项目一夜爆红,单日 GitHub 星标数突破 2000,标

常见问题

GitHub 热点“Hybrid DRL-MPC Architecture Promises Safer Autonomous Driving at Unsignalized Intersections”主要讲了什么?

The saeedrahmani/drl_mpc_for_avs repository, built on the HighwayEnv simulation platform, introduces a novel architecture where a DRL policy handles high-level decision-making—such…

这个 GitHub 项目在“DRL MPC hybrid autonomous vehicle unsignalized intersection open source”上为什么会引发关注?

The core innovation of saeedrahmani/drl_mpc_for_avs lies in its hierarchical decomposition of the motion planning problem. At the top level, a Deep Q-Network (DQN) variant—trained via Proximal Policy Optimization (PPO)—o…

从“How to train DRL MPC motion planner HighwayEnv”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 20,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。