经验为师:新强化学习范式如何教会AI通过探索思考

arXiv cs.AI March 2026
来源:arXiv cs.AIreinforcement learninglarge language modelsAI reasoning归档:March 2026
当前主流的大语言模型强化学习训练范式正遭遇根本性瓶颈——模型变得“奖励短视”,只追求分数而非真正理解。一种新兴范式将探索本身视为可由过往成功经验引导的学习过程,有望解锁更具创造性和泛化能力的人工智能推理。

支撑当前最强大语言模型的强化学习框架正经历关键性重估。主流方法——基于人类偏好、针对静态奖励函数进行模型微调——虽催生了令人印象深刻的对话代理,却也暴露出深层局限。以此方式训练的模型表现出研究者所称的“激励短视”:它们擅长在已知策略的狭窄分布内生成能最大化奖励分数的回应,却未能发展出解决新问题所需的强大探索能力。这导致AI变得脆弱、缺乏创造性,无法在其训练分布之外实现真正的发现。

来自顶尖AI实验室的众多研究正倡导一种范式转变:将探索从随机扰动转变为由经验引导的系统性过程。其核心理念是,模型应学会如何探索,而非仅仅被编程去探索。这通过构建“探索策略”实现,该策略从过往成功的问题解决轨迹中学习,识别哪些行动可能导向有前景的新方向。这种方法将强化学习从单纯的“分数优化器”转变为更接近人类“试错学习”的持续认知发展系统。

初步实验表明,这种经验引导的探索能产生更稳健、更具创造性的模型。在需要新颖解决方案的任务上,如解答复杂科学问题或修复真实世界代码错误,采用新范式的模型表现显著优于传统RLHF微调的模型。它们不仅得分更高,还能发现更多样化的问题解决路径,展现出类似人类专家通过经验积累逐步提升专业能力的迹象。这标志着AI训练哲学的根本转变:从一次性静态优化,转向以经验积累为核心的动态、持续学习过程。

技术深度解析

核心技术挑战在于超越当前主导RL微调的近端策略优化及其同类算法。这些方法擅长在局部邻域内改进策略,但探索能力众所周知地差。它们遭受“锁定”效应:一旦策略找到高奖励区域(即使是次优区域),梯度更新会强化该区域,使得逃离几乎不可能。模型变成了高分应试者,背下了答案却无法解决稍加改动的问题。

新兴范式引入了两个关键概念组件:经验引导探索分布策略优化。EGE机制显式地对探索过程建模。它们不依赖添加噪声或使用ε-贪婪策略,而是采用一个学习得到的“探索策略”,该策略以成功的历史“状态-行动-奖励”轨迹为条件。一个前景广阔的实例是斯坦福与Google DeepMind研究人员提出的EX2框架,它维护一个高性能情节的回放缓冲区。一个独立的探索网络被训练来预测:在给定状态下,哪些行动可能导向与这些高性能情节相似的轨迹,从而有效学习优质解决方案的“形态”。

分布策略优化重构了目标。其目的不再是寻找单一的最大化奖励策略,而是引导整个策略分布趋向一个理论上包含最优策略的目标分布。分布策略梯度通过散度最小化实现对齐探索等技术正获得关注。其核心是最小化当前策略分布与一个构建的“理想”分布之间的KL散度。理想分布通常从模型自身的最佳输出迭代构建,形成一个自我改进的循环。

多个开源代码库正在率先实践这些方法。CarperAI的trlX框架最初为PPO构建,现正扩展探索模块。更专门化的是Open-Exploration GitHub仓库,它为语言模型实现了多种EGE算法,包括一种名为成功条件探索网络的新方法。近几个月它已获得超过1.2k星标,研究人员正尝试其用于基于Transformer策略的即插即用探索层。

在需要生成新颖解决方案的任务上的性能基准测试显示了潜力。在GPQA Diamond基准和SWE-bench上,使用标准RLHF训练的模型在初始微调后,对未见问题类型的改进微乎其微。相比之下,EGE增强训练的早期结果显示,随着模型积累更多问题解决经验,其性能能获得持续、渐进的提升。

| 训练范式 | GPQA Diamond (0-shot) | SWE-bench (Pass@1) | 探索效率分数* |
|---|---|---|---|
| 基础LLM (Llama 3 70B) | 31.2% | 12.4% | 15 |
| + 标准RLHF (PPO) | 35.1% | 18.7% | 22 |
| + EGE增强RL | 38.9% | 24.3% | 68 |
| + 迭代式EGE (5轮) | 44.7% | 29.8% | 155 |
*探索效率分数:每1000训练步发现独特解决路径的复合指标。

数据启示: 表格揭示了一个关键洞见:标准RLHF在困难、新颖任务上回报递减。EGE增强方法不仅获得更高的绝对分数,还展现出显著提升的探索效率。迭代版本表明,从经验中学习的能力可以产生复合效应,这为通向持续学习而非一次性微调指明了道路。

关键参与者与案例研究

这场新范式竞赛由老牌巨头与敏捷研究实验室共同引领。Google DeepMind 发挥了奠基作用,其开放式学习团队发表了关于配对开放式开拓者等算法及其后继环境算法的开创性工作。他们正内部将这些原理应用于语言模型,专注于创造能通过经验学习(而非脚本化操作)掌握如《外交》等复杂游戏的智能体。

Anthropic 的宪法AI可被视为先驱,其模型从自我批评中学习。他们近期的研究暗示,正将这种自我监督引入探索阶段,可能开发出能更智能地探索与其宪法对齐的回应空间的模型。研究员Chris Olah的团队据称正在研究经验学习如何塑造LLM的内部表征。

OpenAI 正并行推进,虽深度投入于基于人类反馈的强化学习,但也敏锐意识到其探索局限。他们的工作重点似乎是扩展RLHF的规模,并尝试将搜索算法(如蒙特卡洛树搜索)集成到训练循环中,以在生成时进行更系统的探索。

更多来自 arXiv cs.AI

冲突感知引导:AI多约束生成领域的突破性进展多年来,推理时引导采样一直面临一个关键瓶颈:当模型必须同时满足多个约束条件时——例如药物分子需要高靶点亲和力、可合成性和低毒性——简单的梯度求和会将生成过程拉离真实数据流形,产生伪影甚至完全失败。一种新提出的方法——冲突感知加性引导——直接声明式数据服务:AI基础设施告别试错时代数据工程世界已撞上南墙。传统AI代理构建数据基础设施依赖暴力循环:写代码、运行、解析错误日志、修复bug、重复。这种方法虽对简单脚本有效,但在真实数据系统的组合复杂性下崩溃。搜索空间过于庞大——数百种数据库、消息队列、转换引擎和缓存层——而无标题The industrial sector has been quietly suffering from a 'latency disaster' as AI agents, tasked with querying sensor dat查看来源专题页arXiv cs.AI 已收录 367 篇文章

相关专题

reinforcement learning82 篇相关文章large language models153 篇相关文章AI reasoning26 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

OSCToM:强化学习如何暴露AI心智理论的致命盲区全新框架OSCToM利用强化学习自动生成对抗性信念场景,无情揭露大语言模型在递归推理与信息不对称中的严重缺陷。这标志着AI社会智能评估从静态问答向动态博弈论范式的根本转变。SPPO解锁AI深度推理:序列级训练如何攻克长链思维难题一场针对当前最先进模型核心弱点——可靠长链推理能力的AI训练范式革命正在进行。序列级近端策略优化(SPPO)通过基于可验证结果优化完整思维序列,重新构想对齐技术,有望彻底改变AI处理科学、金融与工程领域复杂问题的方式。PAR²-RAG框架以动态规划破解AI多步推理危机名为PAR²-RAG的新框架正在攻克AI领域最顽固的挑战之一:跨文档的可靠多步推理。通过将主动规划与实时检索相结合,该系统能动态调整搜索策略,从根本上杜绝了现有方法中常见的错误累积问题,标志着AI系统向真正具备规划与适应能力的方向迈出了关键知行之壑:为何大语言模型能识别错误却仍会犯错现代AI的核心正浮现一个关键缺陷:大语言模型常能意识到问题的逻辑漏洞或缺失前提,却仍会生成自信满满的错误答案。这种“知行之壑”是根本性的架构局限,正威胁AI在高风险领域的可靠性。破局之路需要一场范式革命。

常见问题

这次模型发布“Experience as Teacher: How New RL Paradigms Are Teaching AI to Think Through Exploration”的核心内容是什么?

The reinforcement learning (RL) framework that has powered the most capable large language models is undergoing a critical re-evaluation. The prevailing methodology—fine-tuning mod…

从“experience guided exploration vs reinforcement learning from human feedback”看,这个模型发布为什么重要?

The core technical challenge lies in moving beyond Proximal Policy Optimization (PPO) and similar algorithms that dominate current RL fine-tuning. These methods excel at policy improvement within a local neighborhood but…

围绕“open source github repos for llm exploration algorithms”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。