思考税：AI模型为何在循环推理中浪费算力

AI行业正陷入一场让模型“想得更久、更深”的军备竞赛。OpenAI的o1、DeepSeek-R1和Anthropic的Claude Opus都已证明，扩展的链式思维推理能在复杂数学、编程和科学推理任务中解锁更优性能。但代价是什么？一项由斯坦福和MIT团队领导的新研究首次提供了严谨的正式量化，揭示了这些思考中有多少实际上是浪费的。通过定义一个名为“推理冗余比”（RRR）的指标，研究人员分析了包括o1-preview、DeepSeek-R1和Qwen2.5-72B-Instruct在内的数千条推理轨迹。研究结果令人警醒：在一系列基准任务中，推理过程中生成的所有token中，有25%到40%被归类为冗余。这些冗余不仅推高了计算成本，还延长了响应时间，而并未带来相应的准确性提升。研究团队进一步提出了一种名为MVR（最小化验证冗余）的微调方法，成功将DeepSeek-R1的平均token消耗降低了35%，同时仅牺牲了0.6%的准确率。这一成果表明，通过更智能的推理管理，AI可以在保持高性能的同时大幅降低运营成本。

技术深度解析

该研究的核心贡献在于对推理冗余比（RRR）的正式定义。研究人员将冗余分解为三个不同的类别：

1. 循环自省（CSR）： 模型重新访问一个已解决的子问题，并使用不同的措辞重新推导出相同的结论。可以将其视为AI版本的“反复检查一道已经正确解答的数学题”，但没有增加任何新信息。
2. 重复陈述（RS）： 模型多次用略有不同的词语重述同一个逻辑步骤，增加了token数量却没有推进论证。
3. 过度验证（OV）： 模型对已经由前序逻辑保证正确的中间结果执行冗余检查，类似于在确认加法运算后，再去验证2+2=4。

为了检测这些模式，研究团队结合了语义相似度评分（使用Sentence-BERT嵌入）和一种新颖的蕴含图方法。他们构建了一个有向图，包含推理轨迹中的所有陈述，其中边代表逻辑蕴含关系。当一个节点（陈述）被同一路径中的前一个节点蕴含，但并未导向任何新的、未被蕴含的下游节点时，该节点即被标记为冗余。这种基于图的方法比简单的n-gram重叠检测更稳健，因为它能捕捉到表面形式不同但语义冗余的情况。

基准测试结果： 该研究在五个推理基准上评估了模型：GSM8K（数学）、MATH、HumanEval（编程）、HotpotQA（多跳问答）和一个自定义的“逻辑推理”数据集。关键发现总结如下：

| 模型 | 平均RRR（%） | 平均Token数/任务 | 准确率（%） | 每百万Token估算成本 |
|---|---|---|---|---|
| o1-preview | 38.2 | 4,200 | 92.1 | $15.00 |
| DeepSeek-R1 | 41.5 | 5,100 | 90.8 | $2.19 |
| Qwen2.5-72B-Instruct | 29.1 | 2,800 | 85.4 | $1.20 |
| Claude Opus（思考模式） | 33.7 | 3,900 | 91.5 | $15.00 |
| GPT-4o（标准模式） | 12.4 | 1,100 | 88.3 | $5.00 |

数据要点： 专门针对扩展推理训练的模型（o1、DeepSeek-R1、Claude Opus）的RRR值比标准指令微调模型（如GPT-4o）高出2-3倍。DeepSeek-R1尽管每token成本最低，但冗余比最高，这表明其开源训练流程可能无意中奖励了冗长性。扩展推理带来的准确率提升是真实的，但正在递减——o1和Claude Opus仅比GPT-4o高出约3-4%的准确率，却消耗了3-4倍的token。

MVR训练方法： 研究人员使用修改后的损失函数对DeepSeek-R1进行了微调，该函数增加了一个与生成推理轨迹的RRR成比例的惩罚项。该惩罚项由一个超参数λ加权，团队对其进行了调优以平衡准确率和效率。由此产生的模型被命名为DeepSeek-R1-MVR，在保持90.2%准确率（仅比原版的90.8%下降0.6%）的同时，平均每任务token数减少了35%。这是一个帕累托改进——用更少的计算量实现了几乎相同的性能。

一个值得关注的相关开源项目是ReasoningEfficiency（GitHub，约2.3k星），它提供了可视化和从CoT轨迹中剪除冗余推理步骤的工具。该仓库的最新版本包含一个用于Hugging Face Transformers库的插件，可在推理时应用，以截断冗余循环。

关键参与者与案例研究

该研究的发现对AI生态系统中的几个主要参与者具有直接影响：

- OpenAI： o1-preview作为其旗舰推理模型，每token运行成本最高。高RRR表明，用户在o1上的大量支出正流向浪费的计算。OpenAI即将推出的“o3”模型，据传将包含自适应深度控制，这可能是对这一低效问题的直接回应。
- DeepSeek： 作为开源替代方案，DeepSeek-R1在注重成本的开发者中很受欢迎。然而，其41.5%的RRR是研究中最高的。DeepSeek团队已在其技术报告中承认了这个问题，并正在探索“token预算”训练。MVR微调方法可以集成到他们的下一个版本中。
- Anthropic： Claude Opus的“思考模式”专为复杂推理设计，但研究表明它仍然浪费了约34%的token。Anthropic的宪法AI方法可能需要扩展，加入一个“效率宪法”，以阻止循环推理。
- Google DeepMind： Gemini Ultra 1.5虽未包含在此研究中，但它使用了混合专家架构，可以适应性地分配推理深度。Google内部关于“链式思维剪枝”的研究与这些发现高度一致。

训练范式对比：

| 方法 | 训练目标 | 冗余惩罚 | 平均节省Token数 | 准确率变化 |
|---|---|---|---|---|
| 标准SFT | 正确回答的交叉熵 | 无 | 0 | 基准 |
| CoT微调 | 正确推理轨迹的交叉熵 | 无 | 0 | +2-5% |
| MVR微调 | 正确回答的交叉熵 + λ × RRR | 有（λ × RRR） | -35% | -0.6% |
| 自适应推理（概念） | 动态深度控制 | 隐式 | -40-50%（预估） | 持平或略降 |

编辑评论： 这项研究最令人不安的发现或许是，我们目前训练推理模型的方式实际上在奖励冗长性。当前的强化学习流程——无论是基于人类反馈（RLHF）还是基于规则的奖励——都倾向于将更长的推理链与更准确的答案关联起来。但正如这项研究所表明的，相关性并不等于因果性。模型正在学习“表演思考”，而不是“高效思考”。这让人联想到早期深度学习中的“捷径学习”现象，当时模型学会了利用数据集中的虚假相关性，而不是学习真正的底层模式。现在，我们可能正在目睹“冗长捷径学习”——模型发现，只要输出足够多的token，最终就能碰巧得到正确答案，而不管这些token是否真正推动了推理过程。

未来展望： 这项研究最直接的应用是推理时的自适应计算。与其让所有模型都使用固定的推理深度，不如让模型学会在简单问题上快速回答，在困难问题上深入思考。这可以通过一个“路由器”模型来实现，该模型根据输入问题的复杂度动态选择推理深度，或者通过一种“早期退出”机制，在推理链达到足够置信度时提前终止。OpenAI传闻中的“o3”和Google的“Gemini 2.0”都可能包含此类功能。从长远来看，这项研究可能推动一种新的“推理效率”基准的出现，类似于NLP中的“每token准确率”指标。如果AI行业能够将RRR降低到10%以下，同时保持或提高当前准确率水平，那么推理成本可能会下降3-5倍，从而显著扩大AI应用的经济可行性。

时间归档

延伸阅读

常见问题

这次模型发布“The Thinking Tax: Why AI Models Waste Compute on Circular Reasoning”的核心内容是什么？

The AI industry has been locked in an arms race to build models that 'think' longer and harder. OpenAI's o1, DeepSeek-R1, and Anthropic's Claude Opus have all demonstrated that ext…

从“How to reduce AI inference costs without losing accuracy”看，这个模型发布为什么重要？

The core contribution of the study is the formal definition of Reasoning Redundancy Ratio (RRR). The researchers break down redundancy into three distinct categories: 1. Cyclic Self-Reflection (CSR): The model revisits a…

围绕“DeepSeek-R1 vs OpenAI o1 reasoning efficiency comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。