思考税:AI模型为何在循环推理中浪费算力

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
一项里程碑式研究首次正式量化了大语言模型中的“推理冗余”,发现链式思维(CoT)中高达40%的token被浪费在循环自省和重复验证上。这一发现挑战了业界“想得越久越好”的主流信条,并为自适应推理的未来指明了方向。

AI行业正陷入一场让模型“想得更久、更深”的军备竞赛。OpenAI的o1、DeepSeek-R1和Anthropic的Claude Opus都已证明,扩展的链式思维推理能在复杂数学、编程和科学推理任务中解锁更优性能。但代价是什么?一项由斯坦福和MIT团队领导的新研究首次提供了严谨的正式量化,揭示了这些思考中有多少实际上是浪费的。通过定义一个名为“推理冗余比”(RRR)的指标,研究人员分析了包括o1-preview、DeepSeek-R1和Qwen2.5-72B-Instruct在内的数千条推理轨迹。研究结果令人警醒:在一系列基准任务中,推理过程中生成的所有token中,有25%到40%被归类为冗余。这些冗余不仅推高了计算成本,还延长了响应时间,而并未带来相应的准确性提升。研究团队进一步提出了一种名为MVR(最小化验证冗余)的微调方法,成功将DeepSeek-R1的平均token消耗降低了35%,同时仅牺牲了0.6%的准确率。这一成果表明,通过更智能的推理管理,AI可以在保持高性能的同时大幅降低运营成本。

技术深度解析

该研究的核心贡献在于对推理冗余比(RRR)的正式定义。研究人员将冗余分解为三个不同的类别:

1. 循环自省(CSR): 模型重新访问一个已解决的子问题,并使用不同的措辞重新推导出相同的结论。可以将其视为AI版本的“反复检查一道已经正确解答的数学题”,但没有增加任何新信息。
2. 重复陈述(RS): 模型多次用略有不同的词语重述同一个逻辑步骤,增加了token数量却没有推进论证。
3. 过度验证(OV): 模型对已经由前序逻辑保证正确的中间结果执行冗余检查,类似于在确认加法运算后,再去验证2+2=4。

为了检测这些模式,研究团队结合了语义相似度评分(使用Sentence-BERT嵌入)和一种新颖的蕴含图方法。他们构建了一个有向图,包含推理轨迹中的所有陈述,其中边代表逻辑蕴含关系。当一个节点(陈述)被同一路径中的前一个节点蕴含,但并未导向任何新的、未被蕴含的下游节点时,该节点即被标记为冗余。这种基于图的方法比简单的n-gram重叠检测更稳健,因为它能捕捉到表面形式不同但语义冗余的情况。

基准测试结果: 该研究在五个推理基准上评估了模型:GSM8K(数学)、MATH、HumanEval(编程)、HotpotQA(多跳问答)和一个自定义的“逻辑推理”数据集。关键发现总结如下:

| 模型 | 平均RRR(%) | 平均Token数/任务 | 准确率(%) | 每百万Token估算成本 |
|---|---|---|---|---|
| o1-preview | 38.2 | 4,200 | 92.1 | $15.00 |
| DeepSeek-R1 | 41.5 | 5,100 | 90.8 | $2.19 |
| Qwen2.5-72B-Instruct | 29.1 | 2,800 | 85.4 | $1.20 |
| Claude Opus(思考模式) | 33.7 | 3,900 | 91.5 | $15.00 |
| GPT-4o(标准模式) | 12.4 | 1,100 | 88.3 | $5.00 |

数据要点: 专门针对扩展推理训练的模型(o1、DeepSeek-R1、Claude Opus)的RRR值比标准指令微调模型(如GPT-4o)高出2-3倍。DeepSeek-R1尽管每token成本最低,但冗余比最高,这表明其开源训练流程可能无意中奖励了冗长性。扩展推理带来的准确率提升是真实的,但正在递减——o1和Claude Opus仅比GPT-4o高出约3-4%的准确率,却消耗了3-4倍的token。

MVR训练方法: 研究人员使用修改后的损失函数对DeepSeek-R1进行了微调,该函数增加了一个与生成推理轨迹的RRR成比例的惩罚项。该惩罚项由一个超参数λ加权,团队对其进行了调优以平衡准确率和效率。由此产生的模型被命名为DeepSeek-R1-MVR,在保持90.2%准确率(仅比原版的90.8%下降0.6%)的同时,平均每任务token数减少了35%。这是一个帕累托改进——用更少的计算量实现了几乎相同的性能。

一个值得关注的相关开源项目是ReasoningEfficiency(GitHub,约2.3k星),它提供了可视化和从CoT轨迹中剪除冗余推理步骤的工具。该仓库的最新版本包含一个用于Hugging Face Transformers库的插件,可在推理时应用,以截断冗余循环。

关键参与者与案例研究

该研究的发现对AI生态系统中的几个主要参与者具有直接影响:

- OpenAI: o1-preview作为其旗舰推理模型,每token运行成本最高。高RRR表明,用户在o1上的大量支出正流向浪费的计算。OpenAI即将推出的“o3”模型,据传将包含自适应深度控制,这可能是对这一低效问题的直接回应。
- DeepSeek: 作为开源替代方案,DeepSeek-R1在注重成本的开发者中很受欢迎。然而,其41.5%的RRR是研究中最高的。DeepSeek团队已在其技术报告中承认了这个问题,并正在探索“token预算”训练。MVR微调方法可以集成到他们的下一个版本中。
- Anthropic: Claude Opus的“思考模式”专为复杂推理设计,但研究表明它仍然浪费了约34%的token。Anthropic的宪法AI方法可能需要扩展,加入一个“效率宪法”,以阻止循环推理。
- Google DeepMind: Gemini Ultra 1.5虽未包含在此研究中,但它使用了混合专家架构,可以适应性地分配推理深度。Google内部关于“链式思维剪枝”的研究与这些发现高度一致。

训练范式对比:

| 方法 | 训练目标 | 冗余惩罚 | 平均节省Token数 | 准确率变化 |
|---|---|---|---|---|
| 标准SFT | 正确回答的交叉熵 | 无 | 0 | 基准 |
| CoT微调 | 正确推理轨迹的交叉熵 | 无 | 0 | +2-5% |
| MVR微调 | 正确回答的交叉熵 + λ × RRR | 有(λ × RRR) | -35% | -0.6% |
| 自适应推理(概念) | 动态深度控制 | 隐式 | -40-50%(预估) | 持平或略降 |

编辑评论: 这项研究最令人不安的发现或许是,我们目前训练推理模型的方式实际上在奖励冗长性。当前的强化学习流程——无论是基于人类反馈(RLHF)还是基于规则的奖励——都倾向于将更长的推理链与更准确的答案关联起来。但正如这项研究所表明的,相关性并不等于因果性。模型正在学习“表演思考”,而不是“高效思考”。这让人联想到早期深度学习中的“捷径学习”现象,当时模型学会了利用数据集中的虚假相关性,而不是学习真正的底层模式。现在,我们可能正在目睹“冗长捷径学习”——模型发现,只要输出足够多的token,最终就能碰巧得到正确答案,而不管这些token是否真正推动了推理过程。

未来展望: 这项研究最直接的应用是推理时的自适应计算。与其让所有模型都使用固定的推理深度,不如让模型学会在简单问题上快速回答,在困难问题上深入思考。这可以通过一个“路由器”模型来实现,该模型根据输入问题的复杂度动态选择推理深度,或者通过一种“早期退出”机制,在推理链达到足够置信度时提前终止。OpenAI传闻中的“o3”和Google的“Gemini 2.0”都可能包含此类功能。从长远来看,这项研究可能推动一种新的“推理效率”基准的出现,类似于NLP中的“每token准确率”指标。如果AI行业能够将RRR降低到10%以下,同时保持或提高当前准确率水平,那么推理成本可能会下降3-5倍,从而显著扩大AI应用的经济可行性。

更多来自 arXiv cs.AI

MEMOR-E机器人:大语言模型如何以个性化陪伴革新阿尔茨海默症护理MEMOR-E是一款由东京大学与日本产业技术综合研究所(AIST)研究团队联合开发的四足移动机器人,代表了社交辅助机器人在痴呆症护理领域的重大突破。该系统将运行经过微调的大语言模型的平板电脑安装在Unitree Go2四足平台上,打造出一款当AI更信你的话而非传感器:权威反转危机正在动摇物理世界的信任根基一篇最新研究论文曝光了LLM驱动的泛在系统中的一个根本性漏洞:当传感器读数与用户口头陈述发生冲突时,模型会系统性地选择相信人类。这一被称为“权威反转”的现象,揭示了LLM作为物理世界AI融合中枢时的关键设计缺陷。该研究由一家领先AI安全实验BoxLitE:凸优化如何重写知识图谱嵌入的规则多年来,知识图谱嵌入一直将概念视为高维空间中的单个点。这种方法在从事实中学习模式时表现良好,但在面对严格的逻辑层次——比如“每只狗都是哺乳动物”或“心脏病发作需要立即干预”——时却会彻底失败。由融合凸几何与知识表示领域洞见的研究人员开发的B查看来源专题页arXiv cs.AI 已收录 391 篇文章

时间归档

May 20262839 篇已发布文章

延伸阅读

PathCal:让AI模型停止“过度思考”的突破性校准技术大型推理模型在自我怀疑中浪费了大量算力。PathCal的状态感知校准技术能精准识别哪些“等等”和“但是”是有效思考,哪些是无效负担,在不牺牲准确率的前提下实现40%的推理加速。CAMP框架革新临床AI:自适应多智能体诊断会诊引领范式革命临床人工智能正经历根本性变革,其核心从追求模型输出的一致性转向利用结构化分歧的力量。新兴的CAMP框架开创了自适应多智能体会诊系统,通过动态辩论复杂病例模拟真实世界专家会诊,提供更精细、更可信的诊断支持。MEMOR-E机器人:大语言模型如何以个性化陪伴革新阿尔茨海默症护理MEMOR-E并非只是套上机器人外壳的聊天工具。它将四足平台与大语言模型驱动的平板界面相结合,能根据每位患者认知衰退的模式动态调整用药提醒、日常引导和记忆互动——标志着从脚本化辅助向真正个性化陪伴的关键跨越。当AI更信你的话而非传感器:权威反转危机正在动摇物理世界的信任根基一项突破性研究揭示,基于大语言模型(LLM)的系统在面对人类语言与传感器数据冲突时,会系统性地优先采信前者,形成危险的“权威反转”现象。这一根植于训练数据偏见的缺陷,正对自动驾驶、医疗诊断和工业物联网构成严峻的可靠性威胁。

常见问题

这次模型发布“The Thinking Tax: Why AI Models Waste Compute on Circular Reasoning”的核心内容是什么?

The AI industry has been locked in an arms race to build models that 'think' longer and harder. OpenAI's o1, DeepSeek-R1, and Anthropic's Claude Opus have all demonstrated that ext…

从“How to reduce AI inference costs without losing accuracy”看,这个模型发布为什么重要?

The core contribution of the study is the formal definition of Reasoning Redundancy Ratio (RRR). The researchers break down redundancy into three distinct categories: 1. Cyclic Self-Reflection (CSR): The model revisits a…

围绕“DeepSeek-R1 vs OpenAI o1 reasoning efficiency comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。