技术深度解析
SGPO从根本上重构了基于人类反馈的强化学习(RLHF)和监督微调(SFT)中的奖励与优化格局。传统的蒸馏方法,例如Alpaca或Vicuna等模型所采用的方式,依赖于行为克隆——学生模型被训练为在给定相同输入的情况下,最大化教师模型输出token的对数似然。这相当于学习一个条件分布P(token | context, teacher_trajectory)。其结果是得到一个脆弱的策略,过度拟合于表面模式。
SGPO用一个两阶段过程取代了这种方法。首先,一个“策略提取器”——通常是一个轻量级Transformer或一组学习到的嵌入向量——分析教师的推理轨迹,不是将其视为token序列,而是视为决策序列。它识别出高层次的策略性动作:“分解问题”、“应用勾股定理”、“检查边界情况”。这些策略被表示为潜在向量,捕捉每个步骤背后的*意图*,而非步骤本身。其次,学生模型使用策略梯度目标进行训练,其中奖励的计算依据是学生*自己*生成的轨迹与这些策略向量的对齐程度,而非它与教师token的匹配程度。学生可以自由生成任何有效的解题路径,只要它遵循相同的底层策略。
这种方法与分层强化学习中的“选项发现”概念有直接相似之处,即学习高层动作(选项)来指导低层策略。一个相关的开源项目是GitHub上的“hive-mind”仓库(约2300星),它探索了多智能体系统的分层策略学习,尽管尚未应用于LLM蒸馏。另一个密切相关的工作是“通过规划推理”(RAP)框架,它使用蒙特卡洛树搜索来探索推理树;SGPO可以被视为从这些树中蒸馏*搜索策略*,而非最终路径。
基准性能: 来自一家领先AI实验室(要求匿名)的早期结果显示,泛化能力有了显著提升。下表比较了一个7B参数模型在MATH和GSM8K基准测试以及一个由新型问题类型组成的分布外(OOD)测试集上,使用标准SFT蒸馏与SGPO蒸馏(教师模型为70B)的表现。
| 模型 | MATH(分布内) | GSM8K(分布内) | OOD新问题 | 训练成本(GPU小时) |
|---|---|---|---|---|
| 7B + 标准SFT蒸馏 | 42.1% | 68.3% | 29.4% | 1,200 |
| 7B + SGPO蒸馏 | 45.8% | 71.2% | 58.7% | 1,800 |
| 70B教师模型(Oracle) | 72.5% | 92.1% | 81.3% | — |
数据要点: 尽管由于策略提取和策略梯度步骤,SGPO的训练成本增加了50%,但在OOD泛化上的回报是变革性的——比标准蒸馏提高了29.3个百分点。这表明SGPO不仅仅是压缩知识,而是真正在迁移推理能力。学生模型仍然落后于教师模型,但在新问题上的差距远小于传统方法。
关键参与者与案例研究
SGPO的发展并非孤立发生。几个关键参与者正在趋同于类似的想法,尽管SGPO是第一个明确形式化策略级迁移的方法。
DeepMind(Alphabet): DeepMind一直在探索用于数学推理中逐步验证的“过程奖励模型”(PRM)。他们在LLM上应用AlphaGo式树搜索的工作(例如“AlphaMath”项目)使用价值函数来评估中间推理状态。SGPO可以被视为将该价值函数蒸馏成一个策略。DeepMind内部关于“蒸馏搜索过程”而非搜索结果的研究,与SGPO的理念高度一致。
Anthropic: Anthropic的“宪法AI”(CAI)方法训练模型遵循一套原则而非具体示例。虽然CAI侧重于无害性和有用性,但其底层机制——基于高层规则而非具体演示进行训练——与SGPO的核心洞察相通。Anthropic尚未公开将其应用于推理,但内部论文表明他们正在探索复杂任务的“策略级”训练。
微软研究院: 微软的“思维图谱”(GoT)框架将推理建模为图而非链,允许非线性探索。SGPO可用于将GoT的图遍历策略蒸馏到更小的模型中,从而在边缘设备上实现高效部署。鉴于微软对Phi-3等小型设备端模型的投入,他们有强烈的动机推进这一方向。
OpenAI: OpenAI的o1模型(前身为“Strawberry”)据传使用了一种带有自一致性检查的思维链推理形式。然而,OpenAI尚未公布蒸馏方面的细节。