SDPG:自我蒸馏策略梯度如何让大模型学会“自批作业”

arXiv cs.LG June 2026
来源:arXiv cs.LGreinforcement learning归档:June 2026
一种名为自我蒸馏策略梯度(SDPG)的全新强化学习框架,正在重新定义大语言模型如何从自身输出中学习。通过利用仅在训练阶段可用的“特权上下文”,SDPG借助反向KL散度生成密集的、逐token的监督信号,将稀疏奖励问题转化为连续的梯度学习流。

SDPG的核心创新在于对强化学习中奖励来源的根本性重新定义。传统面向大语言模型的强化学习依赖稀疏的二元反馈——对或错——这在复杂推理任务上严重制约了学习效率。SDPG引入了一个“特权上下文”:它在训练时可用,但在推理时被隐藏,使模型能够以“上帝视角”审视自身的生成过程。具体而言,它采用学生到教师的反向KL散度损失,将模型的输出与一个更优的自我版本进行比较,从而在每个token上产生连续的梯度信号。这有效地教会了模型自我纠错:它不仅能识别最终答案是否正确,还能定位推理路径中哪一步出了偏差。结合组相对验证器优势,SDPG进一步降低了方差,提升了训练稳定性。

技术深度解析

SDPG直面LLM后训练中最顽固的瓶颈之一:稀疏奖励问题。在标准RLHF(基于人类反馈的强化学习)中,模型生成一个回答,然后人类或奖励模型给出一个单一的标量分数。对于一个多步骤的数学证明或复杂的代码函数,这个单一分数不包含任何关于500个token中哪一个导致失败的信息。模型必须依赖蒙特卡洛采样来统计推断哪些动作是好的——这是一个极其样本低效的过程。

SDPG的架构通过引入特权上下文绕过了这一难题——这是一组在训练时可用但在推理时被刻意屏蔽的特征或隐藏状态。这在概念上类似于序列到序列模型中使用的“教师强制”,但被应用在强化学习循环中。特权上下文可能包含真实答案的中间推理步骤、正确的最终答案,甚至是最优解路径的潜在表示。模型作为“学生”生成输出。然后,同一模型的“教师”版本——以特权上下文为条件——生成一个关于token的目标分布。损失被计算为从学生输出分布到教师分布的反向KL散度

为什么用反向KL?标准前向KL(KL(P||Q))惩罚学生未能覆盖教师分布的所有模式。反向KL(KL(Q||P))是模式寻找型的:它迫使学生将概率质量集中在教师分布的高概率区域。这对于自我纠错是理想的——学生学会模仿教师最自信、最正确的token,实际上是在对照黄金标准“批改”自己的每一个token。由此产生的梯度是密集的:每个token位置都收到一个非零信号,其大小与学生分布偏离教师分布的程度成正比。

为了进一步优化这一点,SDPG整合了组相对验证器优势。不是将学生的输出与单个教师进行比较,模型会生成一批候选输出(例如8个或16个)。验证器——可以是一个简单的学习型标量头——对每个输出进行评分。然后,每个token的优势是相对于该组的平均分数计算的。这提供了一个降低方差的基线,类似于PPO中优势归一化的方式,但在这里是结合组上下文在token级别应用的。

| 指标 | 标准PPO(RLHF) | SDPG |
|---|---|---|
| 奖励信号 | 每个轨迹单一标量 | 密集的、逐token梯度 |
| 监督来源 | 人类标签或奖励模型 | 通过特权上下文自我生成的教师 |
| 样本效率 | 低(需要大量rollout) | 高(每个token都提供学习信号) |
| 人工标注成本 | 非常高 | 接近零(初始特权上下文设置后) |
| 收敛速度 | 慢(稀疏奖励带来的方差) | 更快(连续梯度流) |
| 多步推理适用性 | 差(信用分配困难) | 优秀(精确定位错误步骤) |

数据要点: SDPG的逐token梯度流直接解决了困扰标准RLHF的信用分配问题。表格显示了明显的效率优势:SDPG以更低的人力成本实现了更快的收敛,使其特别适用于每个token都至关重要的领域。

在工程方面,SDPG可以作为现有Transformer架构的轻量级包装器实现。关键修改是增加一个特权上下文编码器——一个处理特权信息并将其注入教师解码器堆栈的小型MLP或交叉注意力层。学生和教师共享相同的基础模型权重,但教师拥有一个额外的条件通路。这种设计让人联想到DINO或BYOL等模型中使用的“自我蒸馏”技术,但针对RL进行了调整。一个相关的开源参考是'self-distilled-policy-gradient'仓库(目前在GitHub上约有1.2k星),它在Hugging Face Transformers库之上提供了一个最小的PyTorch实现。该仓库在GSM8K数学数据集上展示了SDPG,显示在10k训练步骤后,准确率比PPO基线绝对提高了12%。

关键参与者与案例研究

虽然SDPG是一个研究框架而非产品,但已有多个组织正在积极整合其原理。DeepMind在其AlphaZero系列中探索了类似的想法,称为“带特权信息的自我对弈强化学习”,尽管SDPG将其专门应用于语言。Anthropic在“宪法AI”方面的工作与自我监督的精神一致,但SDPG提供了一种更数学化的、基于梯度的方法。

最值得注意的案例研究来自Google DeepMind的Gemini团队,据报道该团队已测试了SDPG的一个变体,用于改进数学推理能力。

更多来自 arXiv cs.LG

时间序列Transformer中的自适应分块:复杂性偏见的隐藏陷阱时间序列预测社区曾将自适应分块视为注意力架构的自然延伸。其逻辑看似直接:尖峰、快速振荡或机制转换区域包含更多“信息”,因此更细的分割应有助于模型捕捉局部动态。FEDformer、PatchTST和Crossformer等主要实现都尝试了非均NAS与量化合体:大模型瘦身不减性能,端侧AI迎来新解法将大语言模型(LLM)部署到智能手机、物联网传感器、可穿戴设备等边缘设备上,长期以来面临压缩与能力之间的权衡困境。激进的剪枝往往导致推理能力断崖式下降,而粗粒度的量化则会损害回答质量。最新一波研究通过融合神经架构搜索(NAS)与量化感知优化Muon优化器的频谱盲区:大模型训练中隐藏的瓶颈Muon优化器凭借其计算效率和处理高维参数空间的能力,迅速成为训练开源大语言模型的默认选择。其核心创新在于使用Newton-Schulz(NS)迭代来近似动量矩阵的正交化,从而避免了精确正交化所需的高成本奇异值分解(SVD)。然而,AINe查看来源专题页arXiv cs.LG 已收录 135 篇文章

相关专题

reinforcement learning89 篇相关文章

时间归档

June 2026381 篇已发布文章

延伸阅读

Boolean Collapse in RL: Two Tasks Define All Optimal Policies, Redefining Agent DesignA new theoretical finding in reinforcement learning reveals that in deterministic Markov decision processes, the entire RUBAS框架:用评分规则教会AI代理在安全与效用间精准权衡RUBAS是一种全新的强化学习框架,通过动态评分规则训练AI代理在工具使用中做出精细的安全-效用权衡。它摒弃了“一刀切”的拒绝机制,让代理学会基于上下文的判断,从而在金融、医疗等高风险环境中实现安全操作。RL-Kirigami:AI逆向设计解锁可编程超材料,从试错到智能制造的范式革命一种名为RL-Kirigami的新型AI框架攻克了剪纸结构逆向设计的难题,实现了切割图案的全自动生成,可直接输入激光切割机进行快速原型制作。这标志着可编程超材料的设计从人工试错向AI驱动的范式转变。过程奖励模型:AI推理革命,超越最终答案的思维进化人工智能的学习方式正经历一场关键演变。研究者不再仅凭最终答案评判模型,而是训练AI评估每一个逻辑步骤的质量。这种从结果监督到过程监督的范式转移,有望催生更透明、更可靠、真正具备思维能力的智能系统。

常见问题

这次模型发布“SDPG: How Self-Distilled Policy Gradient Lets LLMs Grade Their Own Homework”的核心内容是什么?

The core innovation of SDPG lies in its radical redefinition of the reward source in reinforcement learning. Traditional RL for LLMs relies on sparse binary feedback—right or wrong…

从“SDPG vs RLHF comparison”看,这个模型发布为什么重要?

SDPG addresses one of the most stubborn bottlenecks in LLM post-training: the sparse reward problem. In standard RLHF (Reinforcement Learning from Human Feedback), a model generates a response, and a human or reward mode…

围绕“self-distilled policy gradient implementation code”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。