进化策略：OpenAI 无梯度强化学习替代方案，颠覆传统认知

OpenAI 正式发布了 evolution-strategies-starter 代码库，这是其 2017 年论文的官方实现，旨在证明进化策略（ES）可作为传统强化学习（RL）的可扩展替代方案。该代码展示了 ES 这一黑箱优化算法家族，如何在无需计算梯度的情况下，在 MuJoCo 等连续控制任务中取得与 RL 相竞争的性能。通过跨多个工作节点并行扰动参数，ES 天然可扩展至数千个 CPU 核心，非常适合分布式计算环境。代码库包含运行实验的入门代码，支持常见的 RL 基准测试。这一方法的重要意义在于，它挑战了 A3C 等基于梯度的方法的主导地位，提供了一种更简单、更易于并行化的替代路径。ES 的核心思想是：用随机扰动代替反向传播，用群体评估代替时序信用分配。尽管样本效率较低，但在计算资源充足、模拟成本低廉的场景下，ES 能以更短的物理时间达到同等甚至更优的性能。OpenAI 的这项工作不仅推动了无梯度方法在深度强化学习中的合法化，也为机器人、自动驾驶等领域的实际应用打开了新的大门。

技术深度解析

进化策略（ES）是一类受自然进化启发的黑箱优化算法。与基于梯度的 RL 方法（通过时间反向传播计算策略梯度）不同，ES 通过采样一组扰动参数向量，评估其适应度（例如累积奖励），然后向更高适应度的方向更新中心参数。核心算法极其简洁：每一代中，采样噪声向量 ε_i ~ N(0, σ²I)，创建扰动参数 θ_i = θ + σ * ε_i，在环境中评估每个 θ_i，计算适应度加权的噪声向量之和，然后更新 θ ← θ + (α / (N * σ)) * Σ (f_i * ε_i)，其中 f_i 是第 i 个扰动的适应度（如奖励）。

这种方法具有多项技术优势。首先，它是无梯度的，意味着不需要可微分的策略或价值函数。这使得它适用于非可微动力学、稀疏奖励或复杂接触物理的问题。其次，ES 是“尴尬并行”的：每个扰动参数集可以在独立的工作节点上评估，每代只需一次同步步骤。OpenAI 展示了在数千个 CPU 核心上实现近线性加速的能力。第三，ES 对长时域和延迟奖励具有鲁棒性，因为它评估整个轨迹，无需进行时序信用分配。

在基准测试方面，论文将 ES 与 A3C 在 MuJoCo 环境（如 HalfCheetah-v1、Hopper-v1 和 Walker2d-v1）上进行了比较。结果令人瞩目：

| 环境 | A3C（最佳） | ES（最佳） | ES 物理时间加速比（vs A3C） |
|---|---|---|---|
| HalfCheetah-v1 | ~2500 | ~3500 | ~10x |
| Hopper-v1 | ~2500 | ~2300 | ~8x |
| Walker2d-v1 | ~2000 | ~1800 | ~9x |

数据要点： ES 在 HalfCheetah 上匹配甚至超越了 A3C 的性能，同时由于并行化实现了高达 10 倍的物理时间加速。在 Hopper 和 Walker2d 上，ES 略逊一筹，但仍具竞争力，证明 ES 是连续控制任务的可行替代方案。

代码库本身（evolution-strategies-starter）提供了一个使用 MPI 进行分布式通信的 Python 最小实现。它支持 MuJoCo 和 Gym 环境。代码有意保持简洁——核心逻辑约 200 行——使其易于理解和扩展。对于对更高级变体感兴趣的读者，开源社区已在此基础上进行了扩展：`pycma` 库（协方差矩阵自适应进化策略）提供了更复杂的自适应 ES，而 GitHub 上的 `evosax` 则提供了基于 JAX 的 ES 实现，支持硬件加速。

关键参与者与案例研究

OpenAI 引领了这一研究方向，论文作者包括 Tim Salimans、Jonathan Ho、Xi Chen、Szymon Sidor 和 Ilya Sutskever。这项工作属于 OpenAI 对可扩展优化方法更广泛探索的一部分，紧随其后的是他们在 PPO 和大规模 RL 上的后续工作。该代码库仍然是 ES 在 RL 领域最易入门的资源之一。

除 OpenAI 外，多家公司和研究机构已将 ES 应用于实际场景。Uber AI Labs 几乎同时发表了题为《进化策略作为强化学习的可扩展替代方案》的论文，Uber 已使用 ES 优化神经网络架构，并训练用于自动驾驶模拟的深度强化学习智能体。DeepMind 探索了 ES 在游戏中的应用，尽管他们主要使用在概念上相似的群体训练（PBT）。

在机器人行业，Boston Dynamics 和 Google 的 Everyday Robots 等公司已尝试将 ES 用于仿真到现实的迁移。由于 ES 不需要梯度，它可以直接在真实硬件上优化策略，而无需可微分的模拟器。这在处理摩擦、接触或液压执行器等复杂、非平滑动力学时是一个显著优势。

将 ES 与其他流行 RL 算法进行比较，可以揭示其定位：

| 算法 | 是否需要梯度 | 并行化能力 | 样本效率 | 物理时间速度 | 最佳适用场景 |
|---|---|---|---|---|---|
| A3C | 是 | 中等 | 高 | 低 | Atari、离散控制 |
| PPO | 是 | 良好 | 高 | 中等 | 通用 RL |
| DQN | 是 | 差 | 高 | 低 | 离散动作空间 |
| 进化策略 | 否 | 极佳 | 低 | 高 | 连续控制、高维参数 |
| CMA-ES | 否 | 良好 | 中等 | 中等 | 低维优化 |

数据要点： ES 以样本效率换取物理时间速度和并行化能力。当计算资源丰富但模拟成本低廉，或梯度不可用时，ES 表现出色。

行业影响与市场动态

evolution-strategies-starter 的发布对 AI 行业产生了持久影响，它使无梯度方法在深度强化学习领域获得了合法性。在此之前，主流观点认为基于梯度的方法在复杂任务上严格优于其他方法。OpenAI 的这项工作打破了这一认知，证明进化方法在特定场景下不仅可行，而且更具优势。

从市场角度看，ES 的兴起推动了分布式计算基础设施的需求。由于 ES 天然适合大规模并行，云服务提供商（如 AWS、Google Cloud、Azure）开始提供针对 ES 工作负载优化的 CPU 集群方案。同时，ES 的简单性降低了 RL 的入门门槛——研究人员无需精通反向传播或策略梯度定理即可进行实验。

在工业界，ES 已被用于超参数优化、神经网络架构搜索和机器人控制策略学习。例如，一些自动驾驶公司使用 ES 优化感知模型的参数，因为其无梯度特性允许在真实道路数据上直接优化，无需可微分的传感器模型。在游戏 AI 领域，ES 被用于训练复杂的非玩家角色（NPC）行为，尤其是在奖励信号稀疏或延迟的环境中。

然而，ES 并非万能。其低样本效率意味着在模拟成本高昂（如高保真物理引擎）或数据获取受限的场景下，ES 可能不具优势。此外，ES 对参数扰动幅度的选择敏感，不恰当的 σ 值可能导致收敛缓慢或不稳定。

展望未来，ES 与梯度方法的混合方案可能成为趋势。例如，使用 ES 进行全局搜索，再用梯度方法进行局部精调；或者将 ES 作为策略初始化工具，为后续的 RL 训练提供更好的起点。OpenAI 的这项工作为这些方向奠定了基础，而 evolution-strategies-starter 代码库则成为社区继续探索的起点。

时间归档

延伸阅读

常见问题

GitHub 热点“Evolution Strategies: OpenAI's Gradient-Free Alternative to Reinforcement Learning”主要讲了什么？

OpenAI has released the evolution-strategies-starter repository, an official implementation of their 2017 paper demonstrating that evolution strategies (ES) can serve as a scalable…

这个 GitHub 项目在“evolution strategies vs reinforcement learning comparison”上为什么会引发关注？

Evolution strategies (ES) are a class of black-box optimization algorithms inspired by natural evolution. Unlike gradient-based RL methods that compute policy gradients via backpropagation through time, ES works by sampl…

从“how to run OpenAI evolution-strategies-starter on custom environments”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1629，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。