Bertsekas新著：将强化学习重新校准至最优控制的数学根基

Dimitri Bertsekas，动态规划与最优控制领域的奠基人，发布了《强化学习与最优控制》一书，该书已在AI研究与工程领域重塑对话。作品系统性地在现代RL算法（从Q-learning到策略梯度）中重新推导，将其置于确定性与随机最优控制的经典框架内，强调收敛保证、稳定性与成本函数设计。这直接对抗当前依赖海量数据与算力的大型语言模型和世界模型趋势——这些模型往往以牺牲形式化保证为代价。Bertsekas认为，没有坚实的控制理论基础，AI智能体——尤其是机器人、自动驾驶和实时决策系统中的那些——将难以实现可信赖的部署。

技术深度解析

Bertsekas的著作并非温和的入门指南；它是一场从零开始、使用最优控制语言对强化学习的严谨重构。核心论点是：每个RL问题都可以被框架化为在系统动力学模型支配下，在一系列决策中最小化成本函数的问题。这是最优控制的经典表述，其目标是在有限或无限时域内找到最小化累积成本的策略。

本书系统地涵盖了：
- 确定性最优控制： 基础部分，系统动力学已知。Bertsekas重新推导了Bellman最优性方程和值迭代，展示了这些正是现代RL中使用的相同方程，但附带了显式的收敛证明。
- 随机最优控制： 引入动力学和成本中的随机性。这引出了随机Bellman方程，它是Q-learning和SARSA的基础。Bertsekas清晰推导了Q-learning在特定条件下为何收敛——这一事实在实践中常被视为理所当然。
- 近似动态规划（ADP）： 这是关键所在。Bertsekas用大量篇幅讨论函数逼近——神经网络、线性架构和核方法——展示它们如何融入控制框架。他引入了“成本逼近”和“策略逼近”的概念，这些是深度RL的理论基础。
- 模型预测控制（MPC）与Rollout： 本书的一大亮点是对rollout算法的处理，这是一种在线规划形式。Bertsekas展示了AlphaGo中使用的蒙特卡洛树搜索（MCTS）是如何成为带有前瞻策略的rollout的一个特例。这种联系在文献中很少被明确阐述。

对于工程师而言，本书最实用的贡献在于其对成本函数设计的处理。Bertsekas认为，任何RL系统的成功都取决于成本函数，而非算法。他提供了成本函数的分类法——二次型、分段线性、障碍函数——并展示了它们如何影响收敛性和稳定性。这直接挑战了困扰许多RL部署的“奖励黑客”问题。

相关开源仓库：
- OpenAI Spinning Up： 一个流行的深度RL仓库，但Bertsekas的书揭示其许多算法（如PPO、SAC）是最优控制框架的临时近似。本书提供了缺失的理论依据。
- RLlib（Ray Project）： 一个可扩展的RL库。Bertsekas的工作表明，通过显式引入控制理论约束（如Lyapunov稳定性），其许多算法可以变得更加稳定。
- MuJoCo： 用于RL研究的物理模拟器。本书对系统动力学的处理直接适用于MuJoCo环境，其中精确建模至关重要。

数据表：RL算法的收敛保证

| 算法 | 收敛保证（Bertsekas框架） | 实际稳定性 | 关键假设 |
|---|---|---|---|
| Q-learning（表格型） | 在有限MDP下得到证明 | 高 | 所有状态被无限频繁访问 |
| Deep Q-Network（DQN） | 无形式化保证 | 中等（借助经验回放） | 函数逼近误差有界 |
| 策略梯度（REINFORCE） | 收敛到局部最优 | 低（高方差） | 无偏梯度估计 |
| 近端策略优化（PPO） | 无形式化保证 | 中等（裁剪启发式） | 信任域近似 |
| 模型预测控制（MPC） | 对凸成本得到证明 | 高（借助精确模型） | 已知动力学，短时域 |

数据要点： 该表展示了一个鲜明分界：具有形式化保证的经典算法（表格型Q-learning、MPC）通常对高维问题不实用，而现代深度RL算法（DQN、PPO）缺乏收敛证明。Bertsekas的框架表明，前进的道路是将控制理论的严谨性与深度学习的可扩展性相结合，而非放弃其中一方。

关键参与者与案例研究

Bertsekas的工作并非孤立存在。几位关键参与者已经在朝着他倡导的方向前进，且往往是独立进行的。

DeepMind（Alphabet）： DeepMind的AlphaGo和AlphaZero或许是RL成功最著名的例子。然而，Bertsekas的书揭示，这些系统本质上是rollout和蒙特卡洛树搜索的复杂实现——这些都是经典控制技术。DeepMind最近在“MuZero”上的工作——它学习环境模型——是Bertsekas所描述的ADP框架的直接应用。该公司向基于模型的RL的转变与本书的论点一致。

Tesla（自动驾驶）： Tesla的自动驾驶方法是经验性RL与最优控制之间张力的一个案例研究。Tesla将神经网络用于感知，并结合经典控制方法进行规划。Bertsekas的框架表明，Tesla当前方法中的许多不稳定性源于缺乏对成本函数和系统动力学的严格处理。该书为将基于学习的感知与基于控制的规划统一起来提供了理论路线图。

Boston Dynamics： 以其敏捷机器人而闻名，Boston Dynamics传统上依赖经典控制理论。然而，该公司越来越多地整合RL元素。Bertsekas的工作为这种整合提供了理论基础，表明RL可以增强而非取代控制理论。

学术界： 斯坦福大学、麻省理工学院和加州大学伯克利分校的教授们已经在将Bertsekas的框架纳入研究生课程。该书有望成为下一代AI研究人员的标准参考。

行业影响与预测

Bertsekas的书在AI行业的关键时刻到来。当前对大型语言模型和世界模型的狂热往往掩盖了形式化保证的重要性。然而，随着AI系统被部署在安全关键应用中——自动驾驶、医疗诊断、电网管理——缺乏理论基础的后果正变得日益明显。

短期影响（1-2年）： 我们预计将出现一波将控制理论约束纳入现有RL框架的学术论文。特别是，成本函数设计将成为一个主要研究领域。公司如Waymo和Cruise可能会采用Bertsekas的方法来改进其自动驾驶系统的稳定性。

中期影响（3-5年）： 该书可能催化新一代“控制感知”RL算法，这些算法结合了深度学习的可扩展性和最优控制的保证。我们可能会看到混合系统，其中神经网络用于函数逼近，但训练过程由控制理论原理指导。

长期影响（5年以上）： Bertsekas的框架可能成为AI工程的标准实践，类似于微积分在物理工程中的角色。正如没有微积分就没有桥梁建造，没有控制理论就没有可信赖的AI系统。

预测： 到2030年，大多数生产级RL系统将基于Bertsekas所描述的原则构建。未能采用控制理论基础的AI公司将在安全关键应用中面临重大监管和声誉风险。

关键要点

1. 理论回归： Bertsekas的书代表了从经验主义RL向数学严谨性的回归。它提醒我们，没有理论基础的AI是不可信赖的。
2. 成本函数是关键： 任何RL系统的成功取决于成本函数的设计，而非算法的选择。工程师应花费更多时间设计成本函数，而非调整超参数。
3. 控制理论是基础： 最优控制提供了RL所需的形式化保证。忽视这一事实的AI系统将面临风险。
4. 混合方法是未来： 前进的道路是将控制理论的严谨性与深度学习相结合，而非选择其一。
5. 行动号召： 对于AI工程师和研究人员而言，Bertsekas的书既是警告也是路线图。现在是时候重新校准我们对RL的理解，并将其建立在最优控制的坚实基础上。

时间归档

延伸阅读

常见问题

这篇关于“Bertsekas New Book Recalibrates Reinforcement Learning Back to Optimal Control”的文章讲了什么？

Dimitri Bertsekas, a foundational figure in dynamic programming and optimal control, has released 'Reinforcement Learning and Optimal Control,' a book that is already reshaping con…

从“Bertsekas RL book convergence guarantees”看，这件事为什么值得关注？

Bertsekas's book is not a gentle introduction; it is a rigorous reconstruction of reinforcement learning from the ground up, using the language of optimal control. The core thesis is that every RL problem can be framed a…

如果想继续追踪“cost function design for autonomous vehicles”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。