技术深度解析
该研究的核心贡献在于对推理冗余比(RRR)的正式定义。研究人员将冗余分解为三个不同的类别:
1. 循环自省(CSR): 模型重新访问一个已解决的子问题,并使用不同的措辞重新推导出相同的结论。可以将其视为AI版本的“反复检查一道已经正确解答的数学题”,但没有增加任何新信息。
2. 重复陈述(RS): 模型多次用略有不同的词语重述同一个逻辑步骤,增加了token数量却没有推进论证。
3. 过度验证(OV): 模型对已经由前序逻辑保证正确的中间结果执行冗余检查,类似于在确认加法运算后,再去验证2+2=4。
为了检测这些模式,研究团队结合了语义相似度评分(使用Sentence-BERT嵌入)和一种新颖的蕴含图方法。他们构建了一个有向图,包含推理轨迹中的所有陈述,其中边代表逻辑蕴含关系。当一个节点(陈述)被同一路径中的前一个节点蕴含,但并未导向任何新的、未被蕴含的下游节点时,该节点即被标记为冗余。这种基于图的方法比简单的n-gram重叠检测更稳健,因为它能捕捉到表面形式不同但语义冗余的情况。
基准测试结果: 该研究在五个推理基准上评估了模型:GSM8K(数学)、MATH、HumanEval(编程)、HotpotQA(多跳问答)和一个自定义的“逻辑推理”数据集。关键发现总结如下:
| 模型 | 平均RRR(%) | 平均Token数/任务 | 准确率(%) | 每百万Token估算成本 |
|---|---|---|---|---|
| o1-preview | 38.2 | 4,200 | 92.1 | $15.00 |
| DeepSeek-R1 | 41.5 | 5,100 | 90.8 | $2.19 |
| Qwen2.5-72B-Instruct | 29.1 | 2,800 | 85.4 | $1.20 |
| Claude Opus(思考模式) | 33.7 | 3,900 | 91.5 | $15.00 |
| GPT-4o(标准模式) | 12.4 | 1,100 | 88.3 | $5.00 |
数据要点: 专门针对扩展推理训练的模型(o1、DeepSeek-R1、Claude Opus)的RRR值比标准指令微调模型(如GPT-4o)高出2-3倍。DeepSeek-R1尽管每token成本最低,但冗余比最高,这表明其开源训练流程可能无意中奖励了冗长性。扩展推理带来的准确率提升是真实的,但正在递减——o1和Claude Opus仅比GPT-4o高出约3-4%的准确率,却消耗了3-4倍的token。
MVR训练方法: 研究人员使用修改后的损失函数对DeepSeek-R1进行了微调,该函数增加了一个与生成推理轨迹的RRR成比例的惩罚项。该惩罚项由一个超参数λ加权,团队对其进行了调优以平衡准确率和效率。由此产生的模型被命名为DeepSeek-R1-MVR,在保持90.2%准确率(仅比原版的90.8%下降0.6%)的同时,平均每任务token数减少了35%。这是一个帕累托改进——用更少的计算量实现了几乎相同的性能。
一个值得关注的相关开源项目是ReasoningEfficiency(GitHub,约2.3k星),它提供了可视化和从CoT轨迹中剪除冗余推理步骤的工具。该仓库的最新版本包含一个用于Hugging Face Transformers库的插件,可在推理时应用,以截断冗余循环。
关键参与者与案例研究
该研究的发现对AI生态系统中的几个主要参与者具有直接影响:
- OpenAI: o1-preview作为其旗舰推理模型,每token运行成本最高。高RRR表明,用户在o1上的大量支出正流向浪费的计算。OpenAI即将推出的“o3”模型,据传将包含自适应深度控制,这可能是对这一低效问题的直接回应。
- DeepSeek: 作为开源替代方案,DeepSeek-R1在注重成本的开发者中很受欢迎。然而,其41.5%的RRR是研究中最高的。DeepSeek团队已在其技术报告中承认了这个问题,并正在探索“token预算”训练。MVR微调方法可以集成到他们的下一个版本中。
- Anthropic: Claude Opus的“思考模式”专为复杂推理设计,但研究表明它仍然浪费了约34%的token。Anthropic的宪法AI方法可能需要扩展,加入一个“效率宪法”,以阻止循环推理。
- Google DeepMind: Gemini Ultra 1.5虽未包含在此研究中,但它使用了混合专家架构,可以适应性地分配推理深度。Google内部关于“链式思维剪枝”的研究与这些发现高度一致。
训练范式对比:
| 方法 | 训练目标 | 冗余惩罚 | 平均节省Token数 | 准确率变化 |
|---|---|---|---|---|
| 标准SFT | 正确回答的交叉熵 | 无 | 0 | 基准 |
| CoT微调 | 正确推理轨迹的交叉熵 | 无 | 0 | +2-5% |
| MVR微调 | 正确回答的交叉熵 + λ × RRR | 有(λ × RRR) | -35% | -0.6% |
| 自适应推理(概念) | 动态深度控制 | 隐式 | -40-50%(预估) | 持平或略降 |
编辑评论: 这项研究最令人不安的发现或许是,我们目前训练推理模型的方式实际上在奖励冗长性。当前的强化学习流程——无论是基于人类反馈(RLHF)还是基于规则的奖励——都倾向于将更长的推理链与更准确的答案关联起来。但正如这项研究所表明的,相关性并不等于因果性。模型正在学习“表演思考”,而不是“高效思考”。这让人联想到早期深度学习中的“捷径学习”现象,当时模型学会了利用数据集中的虚假相关性,而不是学习真正的底层模式。现在,我们可能正在目睹“冗长捷径学习”——模型发现,只要输出足够多的token,最终就能碰巧得到正确答案,而不管这些token是否真正推动了推理过程。
未来展望: 这项研究最直接的应用是推理时的自适应计算。与其让所有模型都使用固定的推理深度,不如让模型学会在简单问题上快速回答,在困难问题上深入思考。这可以通过一个“路由器”模型来实现,该模型根据输入问题的复杂度动态选择推理深度,或者通过一种“早期退出”机制,在推理链达到足够置信度时提前终止。OpenAI传闻中的“o3”和Google的“Gemini 2.0”都可能包含此类功能。从长远来看,这项研究可能推动一种新的“推理效率”基准的出现,类似于NLP中的“每token准确率”指标。如果AI行业能够将RRR降低到10%以下,同时保持或提高当前准确率水平,那么推理成本可能会下降3-5倍,从而显著扩大AI应用的经济可行性。