SGPO打破模仿瓶颈：大模型推理新范式诞生

2026年6月24日 15:00 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI 归档：June 2026

一种名为“策略引导策略优化”（SGPO）的新方法正在颠覆传统的推理蒸馏范式。它不再强迫模型模仿解题步骤，而是教授可迁移的推理策略，让弱模型真正学会“如何思考”——这可能是从记忆型智能向自适应智能的一次飞跃。

多年来，推理蒸馏领域一直困于一个根本性缺陷：模型通过模仿专家轨迹来学习，记住的是具体的解题步骤，而非可迁移的推理能力。这种“知其然，不知其所以然”的方法，导致模型在面对新问题时性能急剧下降。策略引导策略优化（SGPO）直接瞄准这一瓶颈，将训练目标从“模仿答案”转向“学习策略”。它迫使模型理解问题背后的底层逻辑框架和决策模式，而不仅仅是通往答案的具体路径。这一微妙但深刻的转变，将AI从被动的“鹦鹉”转变为主动的“思考者”。从技术上看，SGPO为小模型提供了一条可行的路径，使其能够真正掌握推理能力，而不仅仅是压缩知识。

技术深度解析

SGPO从根本上重构了基于人类反馈的强化学习（RLHF）和监督微调（SFT）中的奖励与优化格局。传统的蒸馏方法，例如Alpaca或Vicuna等模型所采用的方式，依赖于行为克隆——学生模型被训练为在给定相同输入的情况下，最大化教师模型输出token的对数似然。这相当于学习一个条件分布P(token | context, teacher_trajectory)。其结果是得到一个脆弱的策略，过度拟合于表面模式。

SGPO用一个两阶段过程取代了这种方法。首先，一个“策略提取器”——通常是一个轻量级Transformer或一组学习到的嵌入向量——分析教师的推理轨迹，不是将其视为token序列，而是视为决策序列。它识别出高层次的策略性动作：“分解问题”、“应用勾股定理”、“检查边界情况”。这些策略被表示为潜在向量，捕捉每个步骤背后的*意图*，而非步骤本身。其次，学生模型使用策略梯度目标进行训练，其中奖励的计算依据是学生*自己*生成的轨迹与这些策略向量的对齐程度，而非它与教师token的匹配程度。学生可以自由生成任何有效的解题路径，只要它遵循相同的底层策略。

这种方法与分层强化学习中的“选项发现”概念有直接相似之处，即学习高层动作（选项）来指导低层策略。一个相关的开源项目是GitHub上的“hive-mind”仓库（约2300星），它探索了多智能体系统的分层策略学习，尽管尚未应用于LLM蒸馏。另一个密切相关的工作是“通过规划推理”（RAP）框架，它使用蒙特卡洛树搜索来探索推理树；SGPO可以被视为从这些树中蒸馏*搜索策略*，而非最终路径。

基准性能： 来自一家领先AI实验室（要求匿名）的早期结果显示，泛化能力有了显著提升。下表比较了一个7B参数模型在MATH和GSM8K基准测试以及一个由新型问题类型组成的分布外（OOD）测试集上，使用标准SFT蒸馏与SGPO蒸馏（教师模型为70B）的表现。

| 模型 | MATH（分布内） | GSM8K（分布内） | OOD新问题 | 训练成本（GPU小时） |
|---|---|---|---|---|
| 7B + 标准SFT蒸馏 | 42.1% | 68.3% | 29.4% | 1,200 |
| 7B + SGPO蒸馏 | 45.8% | 71.2% | 58.7% | 1,800 |
| 70B教师模型（Oracle） | 72.5% | 92.1% | 81.3% | — |

数据要点： 尽管由于策略提取和策略梯度步骤，SGPO的训练成本增加了50%，但在OOD泛化上的回报是变革性的——比标准蒸馏提高了29.3个百分点。这表明SGPO不仅仅是压缩知识，而是真正在迁移推理能力。学生模型仍然落后于教师模型，但在新问题上的差距远小于传统方法。

关键参与者与案例研究

SGPO的发展并非孤立发生。几个关键参与者正在趋同于类似的想法，尽管SGPO是第一个明确形式化策略级迁移的方法。

DeepMind（Alphabet）： DeepMind一直在探索用于数学推理中逐步验证的“过程奖励模型”（PRM）。他们在LLM上应用AlphaGo式树搜索的工作（例如“AlphaMath”项目）使用价值函数来评估中间推理状态。SGPO可以被视为将该价值函数蒸馏成一个策略。DeepMind内部关于“蒸馏搜索过程”而非搜索结果的研究，与SGPO的理念高度一致。

Anthropic： Anthropic的“宪法AI”（CAI）方法训练模型遵循一套原则而非具体示例。虽然CAI侧重于无害性和有用性，但其底层机制——基于高层规则而非具体演示进行训练——与SGPO的核心洞察相通。Anthropic尚未公开将其应用于推理，但内部论文表明他们正在探索复杂任务的“策略级”训练。

微软研究院： 微软的“思维图谱”（GoT）框架将推理建模为图而非链，允许非线性探索。SGPO可用于将GoT的图遍历策略蒸馏到更小的模型中，从而在边缘设备上实现高效部署。鉴于微软对Phi-3等小型设备端模型的投入，他们有强烈的动机推进这一方向。

OpenAI： OpenAI的o1模型（前身为“Strawberry”）据传使用了一种带有自一致性检查的思维链推理形式。然而，OpenAI尚未公布蒸馏方面的细节。

时间归档

常见问题

这次模型发布“SGPO Breaks Imitation Bottleneck: A New Paradigm for LLM Reasoning Emerges”的核心内容是什么？

For years, the field of reasoning distillation has been trapped in a fundamental flaw: models learn by imitating expert trajectories, memorizing specific solution steps rather than…

从“SGPO vs traditional knowledge distillation comparison”看，这个模型发布为什么重要？

SGPO fundamentally re-architects the reward and optimization landscape of reinforcement learning from human feedback (RLHF) and supervised fine-tuning (SFT). Traditional distillation methods, such as those used in models…

围绕“How SGPO improves LLM generalization on out-of-distribution tasks”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

SGPO打破模仿瓶颈：大模型推理新范式诞生

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题