经验为师:新强化学习范式如何教会AI通过探索思考

当前主流的大语言模型强化学习训练范式正遭遇根本性瓶颈——模型变得“奖励短视”,只追求分数而非真正理解。一种新兴范式将探索本身视为可由过往成功经验引导的学习过程,有望解锁更具创造性和泛化能力的人工智能推理。

支撑当前最强大语言模型的强化学习框架正经历关键性重估。主流方法——基于人类偏好、针对静态奖励函数进行模型微调——虽催生了令人印象深刻的对话代理,却也暴露出深层局限。以此方式训练的模型表现出研究者所称的“激励短视”:它们擅长在已知策略的狭窄分布内生成能最大化奖励分数的回应,却未能发展出解决新问题所需的强大探索能力。这导致AI变得脆弱、缺乏创造性,无法在其训练分布之外实现真正的发现。

来自顶尖AI实验室的众多研究正倡导一种范式转变:将探索从随机扰动转变为由经验引导的系统性过程。其核心理念是,模型应学会如何探索,而非仅仅被编程去探索。这通过构建“探索策略”实现,该策略从过往成功的问题解决轨迹中学习,识别哪些行动可能导向有前景的新方向。这种方法将强化学习从单纯的“分数优化器”转变为更接近人类“试错学习”的持续认知发展系统。

初步实验表明,这种经验引导的探索能产生更稳健、更具创造性的模型。在需要新颖解决方案的任务上,如解答复杂科学问题或修复真实世界代码错误,采用新范式的模型表现显著优于传统RLHF微调的模型。它们不仅得分更高,还能发现更多样化的问题解决路径,展现出类似人类专家通过经验积累逐步提升专业能力的迹象。这标志着AI训练哲学的根本转变:从一次性静态优化,转向以经验积累为核心的动态、持续学习过程。

技术深度解析

核心技术挑战在于超越当前主导RL微调的近端策略优化及其同类算法。这些方法擅长在局部邻域内改进策略,但探索能力众所周知地差。它们遭受“锁定”效应:一旦策略找到高奖励区域(即使是次优区域),梯度更新会强化该区域,使得逃离几乎不可能。模型变成了高分应试者,背下了答案却无法解决稍加改动的问题。

新兴范式引入了两个关键概念组件:经验引导探索分布策略优化。EGE机制显式地对探索过程建模。它们不依赖添加噪声或使用ε-贪婪策略,而是采用一个学习得到的“探索策略”,该策略以成功的历史“状态-行动-奖励”轨迹为条件。一个前景广阔的实例是斯坦福与Google DeepMind研究人员提出的EX2框架,它维护一个高性能情节的回放缓冲区。一个独立的探索网络被训练来预测:在给定状态下,哪些行动可能导向与这些高性能情节相似的轨迹,从而有效学习优质解决方案的“形态”。

分布策略优化重构了目标。其目的不再是寻找单一的最大化奖励策略,而是引导整个策略分布趋向一个理论上包含最优策略的目标分布。分布策略梯度通过散度最小化实现对齐探索等技术正获得关注。其核心是最小化当前策略分布与一个构建的“理想”分布之间的KL散度。理想分布通常从模型自身的最佳输出迭代构建,形成一个自我改进的循环。

多个开源代码库正在率先实践这些方法。CarperAI的trlX框架最初为PPO构建,现正扩展探索模块。更专门化的是Open-Exploration GitHub仓库,它为语言模型实现了多种EGE算法,包括一种名为成功条件探索网络的新方法。近几个月它已获得超过1.2k星标,研究人员正尝试其用于基于Transformer策略的即插即用探索层。

在需要生成新颖解决方案的任务上的性能基准测试显示了潜力。在GPQA Diamond基准和SWE-bench上,使用标准RLHF训练的模型在初始微调后,对未见问题类型的改进微乎其微。相比之下,EGE增强训练的早期结果显示,随着模型积累更多问题解决经验,其性能能获得持续、渐进的提升。

| 训练范式 | GPQA Diamond (0-shot) | SWE-bench (Pass@1) | 探索效率分数* |
|---|---|---|---|
| 基础LLM (Llama 3 70B) | 31.2% | 12.4% | 15 |
| + 标准RLHF (PPO) | 35.1% | 18.7% | 22 |
| + EGE增强RL | 38.9% | 24.3% | 68 |
| + 迭代式EGE (5轮) | 44.7% | 29.8% | 155 |
*探索效率分数:每1000训练步发现独特解决路径的复合指标。

数据启示: 表格揭示了一个关键洞见:标准RLHF在困难、新颖任务上回报递减。EGE增强方法不仅获得更高的绝对分数,还展现出显著提升的探索效率。迭代版本表明,从经验中学习的能力可以产生复合效应,这为通向持续学习而非一次性微调指明了道路。

关键参与者与案例研究

这场新范式竞赛由老牌巨头与敏捷研究实验室共同引领。Google DeepMind 发挥了奠基作用,其开放式学习团队发表了关于配对开放式开拓者等算法及其后继环境算法的开创性工作。他们正内部将这些原理应用于语言模型,专注于创造能通过经验学习(而非脚本化操作)掌握如《外交》等复杂游戏的智能体。

Anthropic 的宪法AI可被视为先驱,其模型从自我批评中学习。他们近期的研究暗示,正将这种自我监督引入探索阶段,可能开发出能更智能地探索与其宪法对齐的回应空间的模型。研究员Chris Olah的团队据称正在研究经验学习如何塑造LLM的内部表征。

OpenAI 正并行推进,虽深度投入于基于人类反馈的强化学习,但也敏锐意识到其探索局限。他们的工作重点似乎是扩展RLHF的规模,并尝试将搜索算法(如蒙特卡洛树搜索)集成到训练循环中,以在生成时进行更系统的探索。

延伸阅读

PAR²-RAG框架以动态规划破解AI多步推理危机名为PAR²-RAG的新框架正在攻克AI领域最顽固的挑战之一:跨文档的可靠多步推理。通过将主动规划与实时检索相结合,该系统能动态调整搜索策略,从根本上杜绝了现有方法中常见的错误累积问题,标志着AI系统向真正具备规划与适应能力的方向迈出了关键知行之壑:为何大语言模型能识别错误却仍会犯错现代AI的核心正浮现一个关键缺陷:大语言模型常能意识到问题的逻辑漏洞或缺失前提,却仍会生成自信满满的错误答案。这种“知行之壑”是根本性的架构局限,正威胁AI在高风险领域的可靠性。破局之路需要一场范式革命。CRAFT框架通过对齐隐藏神经层推理开创AI安全新范式一项创新的AI安全框架正在将范式从修补有害输出转向保障内部推理过程本身。CRAFT技术利用隐藏神经表征与强化学习,引导模型形成安全的思维链。这标志着AI安全领域InfoDensity:新型AI训练方法奖励密集推理,削减计算冗余一项研究突破解决了先进AI中普遍存在的低效问题:冗长冗余的推理过程。InfoDensity方法将训练范式从单纯缩短最终答案,转变为主动奖励高质量、高密度的中间推理步骤。

常见问题

这次模型发布“Experience as Teacher: How New RL Paradigms Are Teaching AI to Think Through Exploration”的核心内容是什么?

The reinforcement learning (RL) framework that has powered the most capable large language models is undergoing a critical re-evaluation. The prevailing methodology—fine-tuning mod…

从“experience guided exploration vs reinforcement learning from human feedback”看,这个模型发布为什么重要?

The core technical challenge lies in moving beyond Proximal Policy Optimization (PPO) and similar algorithms that dominate current RL fine-tuning. These methods excel at policy improvement within a local neighborhood but…

围绕“open source github repos for llm exploration algorithms”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。