SDPG：自我蒸馏策略梯度如何让大模型学会“自批作业”

2026年6月5日 16:46 AINews arXiv cs.LG June 2026

来源：arXiv cs.LG reinforcement learning 归档：June 2026

一种名为自我蒸馏策略梯度（SDPG）的全新强化学习框架，正在重新定义大语言模型如何从自身输出中学习。通过利用仅在训练阶段可用的“特权上下文”，SDPG借助反向KL散度生成密集的、逐token的监督信号，将稀疏奖励问题转化为连续的梯度学习流。

SDPG的核心创新在于对强化学习中奖励来源的根本性重新定义。传统面向大语言模型的强化学习依赖稀疏的二元反馈——对或错——这在复杂推理任务上严重制约了学习效率。SDPG引入了一个“特权上下文”：它在训练时可用，但在推理时被隐藏，使模型能够以“上帝视角”审视自身的生成过程。具体而言，它采用学生到教师的反向KL散度损失，将模型的输出与一个更优的自我版本进行比较，从而在每个token上产生连续的梯度信号。这有效地教会了模型自我纠错：它不仅能识别最终答案是否正确，还能定位推理路径中哪一步出了偏差。结合组相对验证器优势，SDPG进一步降低了方差，提升了训练稳定性。

技术深度解析

SDPG直面LLM后训练中最顽固的瓶颈之一：稀疏奖励问题。在标准RLHF（基于人类反馈的强化学习）中，模型生成一个回答，然后人类或奖励模型给出一个单一的标量分数。对于一个多步骤的数学证明或复杂的代码函数，这个单一分数不包含任何关于500个token中哪一个导致失败的信息。模型必须依赖蒙特卡洛采样来统计推断哪些动作是好的——这是一个极其样本低效的过程。

SDPG的架构通过引入特权上下文绕过了这一难题——这是一组在训练时可用但在推理时被刻意屏蔽的特征或隐藏状态。这在概念上类似于序列到序列模型中使用的“教师强制”，但被应用在强化学习循环中。特权上下文可能包含真实答案的中间推理步骤、正确的最终答案，甚至是最优解路径的潜在表示。模型作为“学生”生成输出。然后，同一模型的“教师”版本——以特权上下文为条件——生成一个关于token的目标分布。损失被计算为从学生输出分布到教师分布的反向KL散度。

为什么用反向KL？标准前向KL（KL(P||Q)）惩罚学生未能覆盖教师分布的所有模式。反向KL（KL(Q||P)）是模式寻找型的：它迫使学生将概率质量集中在教师分布的高概率区域。这对于自我纠错是理想的——学生学会模仿教师最自信、最正确的token，实际上是在对照黄金标准“批改”自己的每一个token。由此产生的梯度是密集的：每个token位置都收到一个非零信号，其大小与学生分布偏离教师分布的程度成正比。

为了进一步优化这一点，SDPG整合了组相对验证器优势。不是将学生的输出与单个教师进行比较，模型会生成一批候选输出（例如8个或16个）。验证器——可以是一个简单的学习型标量头——对每个输出进行评分。然后，每个token的优势是相对于该组的平均分数计算的。这提供了一个降低方差的基线，类似于PPO中优势归一化的方式，但在这里是结合组上下文在token级别应用的。

| 指标 | 标准PPO（RLHF） | SDPG |
|---|---|---|
| 奖励信号 | 每个轨迹单一标量 | 密集的、逐token梯度 |
| 监督来源 | 人类标签或奖励模型 | 通过特权上下文自我生成的教师 |
| 样本效率 | 低（需要大量rollout） | 高（每个token都提供学习信号） |
| 人工标注成本 | 非常高 | 接近零（初始特权上下文设置后） |
| 收敛速度 | 慢（稀疏奖励带来的方差） | 更快（连续梯度流） |
| 多步推理适用性 | 差（信用分配困难） | 优秀（精确定位错误步骤） |

数据要点： SDPG的逐token梯度流直接解决了困扰标准RLHF的信用分配问题。表格显示了明显的效率优势：SDPG以更低的人力成本实现了更快的收敛，使其特别适用于每个token都至关重要的领域。

在工程方面，SDPG可以作为现有Transformer架构的轻量级包装器实现。关键修改是增加一个特权上下文编码器——一个处理特权信息并将其注入教师解码器堆栈的小型MLP或交叉注意力层。学生和教师共享相同的基础模型权重，但教师拥有一个额外的条件通路。这种设计让人联想到DINO或BYOL等模型中使用的“自我蒸馏”技术，但针对RL进行了调整。一个相关的开源参考是'self-distilled-policy-gradient'仓库（目前在GitHub上约有1.2k星），它在Hugging Face Transformers库之上提供了一个最小的PyTorch实现。该仓库在GSM8K数学数据集上展示了SDPG，显示在10k训练步骤后，准确率比PPO基线绝对提高了12%。

关键参与者与案例研究

虽然SDPG是一个研究框架而非产品，但已有多个组织正在积极整合其原理。DeepMind在其AlphaZero系列中探索了类似的想法，称为“带特权信息的自我对弈强化学习”，尽管SDPG将其专门应用于语言。Anthropic在“宪法AI”方面的工作与自我监督的精神一致，但SDPG提供了一种更数学化的、基于梯度的方法。

最值得注意的案例研究来自Google DeepMind的Gemini团队，据报道该团队已测试了SDPG的一个变体，用于改进数学推理能力。

时间归档

常见问题

这次模型发布“SDPG: How Self-Distilled Policy Gradient Lets LLMs Grade Their Own Homework”的核心内容是什么？

The core innovation of SDPG lies in its radical redefinition of the reward source in reinforcement learning. Traditional RL for LLMs relies on sparse binary feedback—right or wrong…

从“SDPG vs RLHF comparison”看，这个模型发布为什么重要？

SDPG addresses one of the most stubborn bottlenecks in LLM post-training: the sparse reward problem. In standard RLHF (Reinforcement Learning from Human Feedback), a model generates a response, and a human or reward mode…

围绕“self-distilled policy gradient implementation code”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

SDPG：自我蒸馏策略梯度如何让大模型学会“自批作业”

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.LG

相关专题

时间归档

延伸阅读

常见问题