SGPO打破模仿瓶颈:大模型推理新范式诞生

arXiv cs.AI June 2026
来源:arXiv cs.AI归档:June 2026
一种名为“策略引导策略优化”(SGPO)的新方法正在颠覆传统的推理蒸馏范式。它不再强迫模型模仿解题步骤,而是教授可迁移的推理策略,让弱模型真正学会“如何思考”——这可能是从记忆型智能向自适应智能的一次飞跃。

多年来,推理蒸馏领域一直困于一个根本性缺陷:模型通过模仿专家轨迹来学习,记住的是具体的解题步骤,而非可迁移的推理能力。这种“知其然,不知其所以然”的方法,导致模型在面对新问题时性能急剧下降。策略引导策略优化(SGPO)直接瞄准这一瓶颈,将训练目标从“模仿答案”转向“学习策略”。它迫使模型理解问题背后的底层逻辑框架和决策模式,而不仅仅是通往答案的具体路径。这一微妙但深刻的转变,将AI从被动的“鹦鹉”转变为主动的“思考者”。从技术上看,SGPO为小模型提供了一条可行的路径,使其能够真正掌握推理能力,而不仅仅是压缩知识。

技术深度解析

SGPO从根本上重构了基于人类反馈的强化学习(RLHF)和监督微调(SFT)中的奖励与优化格局。传统的蒸馏方法,例如Alpaca或Vicuna等模型所采用的方式,依赖于行为克隆——学生模型被训练为在给定相同输入的情况下,最大化教师模型输出token的对数似然。这相当于学习一个条件分布P(token | context, teacher_trajectory)。其结果是得到一个脆弱的策略,过度拟合于表面模式。

SGPO用一个两阶段过程取代了这种方法。首先,一个“策略提取器”——通常是一个轻量级Transformer或一组学习到的嵌入向量——分析教师的推理轨迹,不是将其视为token序列,而是视为决策序列。它识别出高层次的策略性动作:“分解问题”、“应用勾股定理”、“检查边界情况”。这些策略被表示为潜在向量,捕捉每个步骤背后的*意图*,而非步骤本身。其次,学生模型使用策略梯度目标进行训练,其中奖励的计算依据是学生*自己*生成的轨迹与这些策略向量的对齐程度,而非它与教师token的匹配程度。学生可以自由生成任何有效的解题路径,只要它遵循相同的底层策略。

这种方法与分层强化学习中的“选项发现”概念有直接相似之处,即学习高层动作(选项)来指导低层策略。一个相关的开源项目是GitHub上的“hive-mind”仓库(约2300星),它探索了多智能体系统的分层策略学习,尽管尚未应用于LLM蒸馏。另一个密切相关的工作是“通过规划推理”(RAP)框架,它使用蒙特卡洛树搜索来探索推理树;SGPO可以被视为从这些树中蒸馏*搜索策略*,而非最终路径。

基准性能: 来自一家领先AI实验室(要求匿名)的早期结果显示,泛化能力有了显著提升。下表比较了一个7B参数模型在MATH和GSM8K基准测试以及一个由新型问题类型组成的分布外(OOD)测试集上,使用标准SFT蒸馏与SGPO蒸馏(教师模型为70B)的表现。

| 模型 | MATH(分布内) | GSM8K(分布内) | OOD新问题 | 训练成本(GPU小时) |
|---|---|---|---|---|
| 7B + 标准SFT蒸馏 | 42.1% | 68.3% | 29.4% | 1,200 |
| 7B + SGPO蒸馏 | 45.8% | 71.2% | 58.7% | 1,800 |
| 70B教师模型(Oracle) | 72.5% | 92.1% | 81.3% | — |

数据要点: 尽管由于策略提取和策略梯度步骤,SGPO的训练成本增加了50%,但在OOD泛化上的回报是变革性的——比标准蒸馏提高了29.3个百分点。这表明SGPO不仅仅是压缩知识,而是真正在迁移推理能力。学生模型仍然落后于教师模型,但在新问题上的差距远小于传统方法。

关键参与者与案例研究

SGPO的发展并非孤立发生。几个关键参与者正在趋同于类似的想法,尽管SGPO是第一个明确形式化策略级迁移的方法。

DeepMind(Alphabet): DeepMind一直在探索用于数学推理中逐步验证的“过程奖励模型”(PRM)。他们在LLM上应用AlphaGo式树搜索的工作(例如“AlphaMath”项目)使用价值函数来评估中间推理状态。SGPO可以被视为将该价值函数蒸馏成一个策略。DeepMind内部关于“蒸馏搜索过程”而非搜索结果的研究,与SGPO的理念高度一致。

Anthropic: Anthropic的“宪法AI”(CAI)方法训练模型遵循一套原则而非具体示例。虽然CAI侧重于无害性和有用性,但其底层机制——基于高层规则而非具体演示进行训练——与SGPO的核心洞察相通。Anthropic尚未公开将其应用于推理,但内部论文表明他们正在探索复杂任务的“策略级”训练。

微软研究院: 微软的“思维图谱”(GoT)框架将推理建模为图而非链,允许非线性探索。SGPO可用于将GoT的图遍历策略蒸馏到更小的模型中,从而在边缘设备上实现高效部署。鉴于微软对Phi-3等小型设备端模型的投入,他们有强烈的动机推进这一方向。

OpenAI: OpenAI的o1模型(前身为“Strawberry”)据传使用了一种带有自一致性检查的思维链推理形式。然而,OpenAI尚未公布蒸馏方面的细节。

更多来自 arXiv cs.AI

因果强化学习:AI必须停止猜测,开始理解因果多年来,强化学习(RL)一直是驱动从游戏AI到机器人操作等突破性进展的核心引擎。但传统RL存在一个根本性盲点:它学习的是相关性,而非因果关系。一个在实验室中训练来拿起蓝色杯子的机器人,当杯子变成红色或光照变化时可能会失败,因为它从未学到颜色T2D-Bench:揭穿AI糖尿病建议“空心化”的知识图谱基准AI社区长期以来一直盛赞大语言模型(LLM)在医疗对话中的卓越表现。然而,一项名为T2D-Bench的新基准测试给出了令人清醒的现实检验:在2型糖尿病管理领域,这些模型不过是制造幻觉的大师。T2D-Bench构建了一个多层知识图谱,将临床指OmniPath:AI智能体如何为轮椅使用者重建城市地图几十年来,城市无障碍环境对轮椅使用者而言一直是一纸空文。像 OpenStreetMap 这样的传统地图平台可以精确记录路径位置,却完全无法感知行走时的“体感”——人行道的粗糙程度、路缘坡道的陡峭度、隐藏台阶的存在。这种信息鸿沟让地图上那条标查看来源专题页arXiv cs.AI 已收录 515 篇文章

时间归档

June 20262440 篇已发布文章

延伸阅读

多智能体AI的群体思维:隐藏的“锚定偏差”正威胁推理可靠性多智能体AI讨论被誉为推理能力的重大突破,但AINews深度调查揭示了一个关键缺陷:早期轮次形成的共识会像“锚”一样锁定最终结果,即使后续出现正确论点也难以扭转。这一现象与人类群体思维如出一辙,给高风险部署场景带来严峻挑战。LLM推理的隐秘裂缝:结构不确定性揭示逻辑的真正脆弱性大型语言模型常常通过不稳定甚至矛盾的推理路径得出正确答案。一项全新的“结构不确定性”指标量化了这一隐藏缺陷,揭示出仅靠答案一致性会掩盖深层的逻辑脆弱性。LLM“短视规划”真相曝光:为何AI只能看到三步之内一项全新研究方法从LLM推理轨迹中提取搜索树,揭示了一个根本缺陷:即便是最先进的模型也深陷“短视规划”,仅能模拟未来两到三步。这一发现挑战了“思维链等于深度推理”的普遍假设,并为诊断和修复长程依赖失效提供了量化工具。Analytica:软命题推理终结LLM黑箱混乱,AI决策迎来可信时代一种名为Analytica的新型智能体架构,用软命题推理(SPR)取代了LLM的黑箱推理,将复杂分析转化为可验证、可组合的过程。这一突破有望让AI在高风险的金融和科学决策中真正值得信赖。

常见问题

这次模型发布“SGPO Breaks Imitation Bottleneck: A New Paradigm for LLM Reasoning Emerges”的核心内容是什么?

For years, the field of reasoning distillation has been trapped in a fundamental flaw: models learn by imitating expert trajectories, memorizing specific solution steps rather than…

从“SGPO vs traditional knowledge distillation comparison”看,这个模型发布为什么重要?

SGPO fundamentally re-architects the reward and optimization landscape of reinforcement learning from human feedback (RLHF) and supervised fine-tuning (SFT). Traditional distillation methods, such as those used in models…

围绕“How SGPO improves LLM generalization on out-of-distribution tasks”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。