技术深度解析
核心技术挑战在于超越当前主导RL微调的近端策略优化及其同类算法。这些方法擅长在局部邻域内改进策略,但探索能力众所周知地差。它们遭受“锁定”效应:一旦策略找到高奖励区域(即使是次优区域),梯度更新会强化该区域,使得逃离几乎不可能。模型变成了高分应试者,背下了答案却无法解决稍加改动的问题。
新兴范式引入了两个关键概念组件:经验引导探索和分布策略优化。EGE机制显式地对探索过程建模。它们不依赖添加噪声或使用ε-贪婪策略,而是采用一个学习得到的“探索策略”,该策略以成功的历史“状态-行动-奖励”轨迹为条件。一个前景广阔的实例是斯坦福与Google DeepMind研究人员提出的EX2框架,它维护一个高性能情节的回放缓冲区。一个独立的探索网络被训练来预测:在给定状态下,哪些行动可能导向与这些高性能情节相似的轨迹,从而有效学习优质解决方案的“形态”。
分布策略优化重构了目标。其目的不再是寻找单一的最大化奖励策略,而是引导整个策略分布趋向一个理论上包含最优策略的目标分布。分布策略梯度和通过散度最小化实现对齐探索等技术正获得关注。其核心是最小化当前策略分布与一个构建的“理想”分布之间的KL散度。理想分布通常从模型自身的最佳输出迭代构建,形成一个自我改进的循环。
多个开源代码库正在率先实践这些方法。CarperAI的trlX框架最初为PPO构建,现正扩展探索模块。更专门化的是Open-Exploration GitHub仓库,它为语言模型实现了多种EGE算法,包括一种名为成功条件探索网络的新方法。近几个月它已获得超过1.2k星标,研究人员正尝试其用于基于Transformer策略的即插即用探索层。
在需要生成新颖解决方案的任务上的性能基准测试显示了潜力。在GPQA Diamond基准和SWE-bench上,使用标准RLHF训练的模型在初始微调后,对未见问题类型的改进微乎其微。相比之下,EGE增强训练的早期结果显示,随着模型积累更多问题解决经验,其性能能获得持续、渐进的提升。
| 训练范式 | GPQA Diamond (0-shot) | SWE-bench (Pass@1) | 探索效率分数* |
|---|---|---|---|
| 基础LLM (Llama 3 70B) | 31.2% | 12.4% | 15 |
| + 标准RLHF (PPO) | 35.1% | 18.7% | 22 |
| + EGE增强RL | 38.9% | 24.3% | 68 |
| + 迭代式EGE (5轮) | 44.7% | 29.8% | 155 |
*探索效率分数:每1000训练步发现独特解决路径的复合指标。
数据启示: 表格揭示了一个关键洞见:标准RLHF在困难、新颖任务上回报递减。EGE增强方法不仅获得更高的绝对分数,还展现出显著提升的探索效率。迭代版本表明,从经验中学习的能力可以产生复合效应,这为通向持续学习而非一次性微调指明了道路。
关键参与者与案例研究
这场新范式竞赛由老牌巨头与敏捷研究实验室共同引领。Google DeepMind 发挥了奠基作用,其开放式学习团队发表了关于配对开放式开拓者等算法及其后继环境算法的开创性工作。他们正内部将这些原理应用于语言模型,专注于创造能通过经验学习(而非脚本化操作)掌握如《外交》等复杂游戏的智能体。
Anthropic 的宪法AI可被视为先驱,其模型从自我批评中学习。他们近期的研究暗示,正将这种自我监督引入探索阶段,可能开发出能更智能地探索与其宪法对齐的回应空间的模型。研究员Chris Olah的团队据称正在研究经验学习如何塑造LLM的内部表征。
OpenAI 正并行推进,虽深度投入于基于人类反馈的强化学习,但也敏锐意识到其探索局限。他们的工作重点似乎是扩展RLHF的规模,并尝试将搜索算法(如蒙特卡洛树搜索)集成到训练循环中,以在生成时进行更系统的探索。