技术深度解析
该研究的核心见解——我们称之为“推理缩放假说”——在于模型性能在推理时计算量上遵循可预测的缩放定律,且独立于训练计算。研究人员系统性地改变了多个前沿模型在推理时分配给推理的计算量,包括OpenAI的o1、Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro。他们测试了三种主要技术:
1. 变长思维链(CoT):模型被提示生成中间推理步骤。通过控制允许推理的最大token数量(例如256 vs. 4096),团队观察到在数学(MATH)、编程(HumanEval)和逻辑(BIG-Bench Hard)基准测试上,准确率呈对数线性提升。例如,在MATH数据集上,将CoT token预算从256增加到4096,各模型的准确率提升了12-18个百分点。
2. 自洽性(SC):模型生成多个独立的推理路径(例如1、5、20、100个样本),并选择最常见的答案。该技术利用了大数定律:更多样本降低方差并提高可靠性。研究发现,100个样本的SC比单次CoT通过准确率提高了8-15%,超过50个样本后收益递减。
3. 迭代优化(IR):模型生成初始答案,然后通过多轮批评和优化进行改进。每轮消耗额外的推理计算。研究人员实现了一个简单循环:生成、评估(使用单独的验证模型)、并根据反馈重新生成。在编程任务(HumanEval)上,3轮IR将Claude 3.5 Sonnet的pass@1从78%提升至89%,代价是3倍的推理计算量。
缩放定律:该研究提出一个幂律关系:`准确率 ∝ (推理计算量)^α`,其中α根据任务难度和模型架构在0.15到0.35之间变化。这类似于训练缩放定律(Kaplan等人,2020),但适用于推理。关键含义是:将推理计算量翻倍,会带来可预测但递减的准确率提升。
相关开源工具:从业者可通过以下GitHub仓库探索这些技术:
- LangChain(仓库:langchain-ai/langchain,10万+星标):提供用于CoT、自洽性和迭代优化的模块化链。最近的更新包括对变长CoT和预算约束推理的原生支持。
- vLLM(仓库:vllm-project/vllm,4.5万+星标):一个高吞吐量推理引擎,支持动态批处理和推测解码。可配置为每个请求分配可变计算量,实现成本可控的缩放。
- SGLang(仓库:sgl-project/sglang,8千+星标):一个结构化生成框架,允许对推理计算进行细粒度控制,包括提前停止和自适应token预算。
数据表:推理计算 vs. 准确率(MATH数据集)
| 技术 | 计算预算(FLOPs) | 准确率(%) | 每次查询成本($) |
|---|---|---|---|
| 单次通过(无CoT) | 1x(基线) | 42.3 | 0.001 |
| CoT(256 tokens) | 2x | 54.1 | 0.002 |
| CoT(1024 tokens) | 4x | 62.7 | 0.004 |
| CoT(4096 tokens) | 8x | 68.4 | 0.008 |
| CoT + SC(10个样本) | 20x | 74.2 | 0.020 |
| CoT + SC(50个样本) | 100x | 79.8 | 0.100 |
| CoT + IR(3轮) | 12x | 71.5 | 0.012 |
数据要点:该表显示了清晰的权衡:准确率随计算量提升而提高,但增速递减。对于成本敏感型应用,最佳平衡点似乎是CoT(1024 tokens,4倍计算量,62.7%准确率)或CoT+SC(10个样本,20倍计算量,74.2%准确率)。100个样本的SC运行实现了最高准确率,但成本高达100倍,仅适用于医疗诊断或法律分析等高价值任务。
关键玩家与案例研究
向推理计算的转变已吸引了重大投资和产品转向。以下是关键玩家:
OpenAI:该公司o1模型是首个明确将“思考时间”作为卖点的模型。OpenAI内部研究(发表于《Learning to Reason with LLMs》论文)表明,o1在AIME数学问题上的表现随推理计算量缩放。OpenAI已部署分层定价模式:o1-mini(快速、廉价)vs. o1(更慢、更多计算、更高准确率)。这是对推理计算的直接货币化。
Anthropic:Claude 3.5 Sonnet引入了“扩展思考”模式,为复杂推理任务分配额外计算资源。Anthropic在“Constitutional AI”和“可解释性”方面的研究为其推理时计算方法提供了依据,重点关注安全性和可靠性。他们已开源其“Claude-internal”评估框架,其中包含作为参数的推理计算预算。
Google DeepMind:Gemini 1.5 Pro的“自适应计算”功能动态分配推理