推理计算:解锁更智能AI模型的隐藏杠杆

Hacker News June 2026
来源:Hacker News归档:June 2026
一项里程碑式研究揭示,在推理阶段通过思维链、自洽性检查与迭代优化分配更多计算资源,能直接提升模型的推理能力与准确性。这标志着AI行业从训练规模向推理智能的范式转移,正在重塑产品战略与竞争格局。

多年来,AI行业始终聚焦于训练计算——那些孕育每一代新模型的GPU集群。但一场静默的革命正在模型部署后悄然展开。本编辑部密切追踪的一篇新研究论文指出,一个根本性转变正在发生:推理计算正成为推动前沿模型性能的主要杠杆。其逻辑清晰而深刻:随着模型规模和能力的增长,瓶颈不再是训练阶段嵌入的原始知识,而是模型在查询时有效推理的能力。通过在推理阶段分配更多计算资源——采用思维链提示、自洽性检查和迭代优化等技术——模型可以有效地“思考更久”,从而产生显著更好的结果。这直接重塑了AI产品的定价策略、部署架构和竞争壁垒。

技术深度解析

该研究的核心见解——我们称之为“推理缩放假说”——在于模型性能在推理时计算量上遵循可预测的缩放定律,且独立于训练计算。研究人员系统性地改变了多个前沿模型在推理时分配给推理的计算量,包括OpenAI的o1、Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro。他们测试了三种主要技术:

1. 变长思维链(CoT):模型被提示生成中间推理步骤。通过控制允许推理的最大token数量(例如256 vs. 4096),团队观察到在数学(MATH)、编程(HumanEval)和逻辑(BIG-Bench Hard)基准测试上,准确率呈对数线性提升。例如,在MATH数据集上,将CoT token预算从256增加到4096,各模型的准确率提升了12-18个百分点。

2. 自洽性(SC):模型生成多个独立的推理路径(例如1、5、20、100个样本),并选择最常见的答案。该技术利用了大数定律:更多样本降低方差并提高可靠性。研究发现,100个样本的SC比单次CoT通过准确率提高了8-15%,超过50个样本后收益递减。

3. 迭代优化(IR):模型生成初始答案,然后通过多轮批评和优化进行改进。每轮消耗额外的推理计算。研究人员实现了一个简单循环:生成、评估(使用单独的验证模型)、并根据反馈重新生成。在编程任务(HumanEval)上,3轮IR将Claude 3.5 Sonnet的pass@1从78%提升至89%,代价是3倍的推理计算量。

缩放定律:该研究提出一个幂律关系:`准确率 ∝ (推理计算量)^α`,其中α根据任务难度和模型架构在0.15到0.35之间变化。这类似于训练缩放定律(Kaplan等人,2020),但适用于推理。关键含义是:将推理计算量翻倍,会带来可预测但递减的准确率提升。

相关开源工具:从业者可通过以下GitHub仓库探索这些技术:
- LangChain(仓库:langchain-ai/langchain,10万+星标):提供用于CoT、自洽性和迭代优化的模块化链。最近的更新包括对变长CoT和预算约束推理的原生支持。
- vLLM(仓库:vllm-project/vllm,4.5万+星标):一个高吞吐量推理引擎,支持动态批处理和推测解码。可配置为每个请求分配可变计算量,实现成本可控的缩放。
- SGLang(仓库:sgl-project/sglang,8千+星标):一个结构化生成框架,允许对推理计算进行细粒度控制,包括提前停止和自适应token预算。

数据表:推理计算 vs. 准确率(MATH数据集)

| 技术 | 计算预算(FLOPs) | 准确率(%) | 每次查询成本($) |
|---|---|---|---|
| 单次通过(无CoT) | 1x(基线) | 42.3 | 0.001 |
| CoT(256 tokens) | 2x | 54.1 | 0.002 |
| CoT(1024 tokens) | 4x | 62.7 | 0.004 |
| CoT(4096 tokens) | 8x | 68.4 | 0.008 |
| CoT + SC(10个样本) | 20x | 74.2 | 0.020 |
| CoT + SC(50个样本) | 100x | 79.8 | 0.100 |
| CoT + IR(3轮) | 12x | 71.5 | 0.012 |

数据要点:该表显示了清晰的权衡:准确率随计算量提升而提高,但增速递减。对于成本敏感型应用,最佳平衡点似乎是CoT(1024 tokens,4倍计算量,62.7%准确率)或CoT+SC(10个样本,20倍计算量,74.2%准确率)。100个样本的SC运行实现了最高准确率,但成本高达100倍,仅适用于医疗诊断或法律分析等高价值任务。

关键玩家与案例研究

向推理计算的转变已吸引了重大投资和产品转向。以下是关键玩家:

OpenAI:该公司o1模型是首个明确将“思考时间”作为卖点的模型。OpenAI内部研究(发表于《Learning to Reason with LLMs》论文)表明,o1在AIME数学问题上的表现随推理计算量缩放。OpenAI已部署分层定价模式:o1-mini(快速、廉价)vs. o1(更慢、更多计算、更高准确率)。这是对推理计算的直接货币化。

Anthropic:Claude 3.5 Sonnet引入了“扩展思考”模式,为复杂推理任务分配额外计算资源。Anthropic在“Constitutional AI”和“可解释性”方面的研究为其推理时计算方法提供了依据,重点关注安全性和可靠性。他们已开源其“Claude-internal”评估框架,其中包含作为参数的推理计算预算。

Google DeepMind:Gemini 1.5 Pro的“自适应计算”功能动态分配推理

更多来自 Hacker News

AI智能体需要黑匣子:自主决策的飞行记录仪革命自主AI智能体执行复杂多步骤工作流的时代已经到来,但随之而来的是深刻的问责缺口。AINews观察到,构建这些系统的工程团队正形成日益强烈的共识:我们需要一个标准化的智能体行为“飞行记录仪”。这并非模型层面的突破,而是一场以信任为核心的基础设Anthropic强制身份验证:AI问责时代的开端在一项重新定义AI提供商与用户关系的举措中,Anthropic已引入强制性身份验证,作为访问其Claude系列模型的前提。更新后的服务条款要求用户提供政府颁发的身份证件或其他可验证凭证,方可使用该平台。这并非一次微小的政策调整——而是一次战Genesis Workbench:生成式AI如何重写生命本身的代码AINews独立分析了Genesis Workbench——一个将生成式AI(特别是大型语言模型和扩散架构)应用于新型生物分子设计的平台。通过将氨基酸序列视为语言、蛋白质折叠视为语义结构,该系统能够生成具有靶向功能(如高结合亲和力或热稳定性查看来源专题页Hacker News 已收录 5139 篇文章

时间归档

June 20262362 篇已发布文章

延伸阅读

Modelplane开源控制平面:重塑AI推理经济格局Modelplane,一款新兴的开源AI推理控制平面,通过将基础设施管理与模型执行解耦,为多样化的硬件后端提供统一API。AINews深入探究其如何降低小型团队门槛,并可能将AI推理商品化,使竞争优势从原始算力转向智能调度。马具工程师崛起:驱动AI智能体部署的蓝领技术岗位AI行业正经历一场静默而深刻的变革:从模型军备竞赛转向部署效率之争。一个名为“马具工程师”的新兴角色应运而生——他们不训练模型,而是构建和维护AI智能体运行所需的操作基础设施,包括提示编排、工具集成与安全护栏。这标志着AI产业从以模型为中心参数悖论:Opus 4.8与GPT-5.5如何宣告AI从规模竞赛转向效率革命Anthropic与OpenAI拒绝披露Opus 4.8和GPT-5.5的参数规模,并非简单的保密策略,而是一次深思熟虑的战略信号。AINews深度分析指出,这标志着参数军备竞赛的终结,以及一个以架构创新、数据质量和推理效率重新定义“强大”模型即产品:AI部署的最后一公里革命AI行业正经历一场静默革命:将训练好的模型打包成交互式网页应用,已从“锦上添花”变为核心竞争力。从研究驱动到产品驱动的转变意味着,模型的价值不再仅取决于其架构,更取决于用户能否轻松触及。

常见问题

这次模型发布“Inference Compute Is the Hidden Lever Unlocking Smarter AI Models”的核心内容是什么?

For years, the AI industry fixated on training compute—the GPU clusters that birth each new generation of models. But a quiet revolution is unfolding after deployment. A new resear…

从“inference compute scaling law explained”看,这个模型发布为什么重要?

The core insight from the study—which we will refer to as the Inference Scaling Hypothesis—is that model performance follows a predictable scaling law with respect to inference-time compute, independent of training compu…

围绕“how to optimize inference compute budget”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。