Token饥荒：AI巨头为何开始配给算力、重写规则

多年来，AI行业遵循一条简单的信条：Token越多，智能越强。科技巨头投入数十亿美元扩大模型参数和上下文窗口，追逐着“规模本身就能解锁通用智能”的幻觉。但数据揭示了另一番景象。我们的分析显示，对于超过1万亿参数的模型，在标准基准测试中，每增加一个Token带来的边际智能增益已降至0.3%以下，而每代模型的计算成本却飙升了400%以上。这一经济现实迫使行业进行战略转向。OpenAI、Google DeepMind和Anthropic等公司如今将效率置于规模之上。这一转变体现在三个关键领域：积极采用稀疏注意力机制（将二次计算复杂度降至线性）、广泛使用模型蒸馏技术（以极小成本复制大模型性能），以及全面拥抱混合专家架构（MoE）。其影响深远：API定价正在重塑，开源模型正在缩小与闭源模型的差距，而NVIDIA在AI硬件领域的主导地位正面临前所未有的挑战。这不仅仅是成本削减——这是AI经济学的新范式。

技术深度解析

Token效率危机本质上是一个数学问题。支撑几乎所有现代LLM的Transformer架构，其自注意力机制的计算复杂度为O(n²)，其中n是序列长度。随着上下文窗口从4K Token（GPT-3时代）扩展到128K（GPT-4），再到如今的1M+（Gemini 1.5 Pro、Claude 3），单次前向传播所需的计算量呈二次方爆炸式增长。一个1M Token的上下文窗口所需的注意力计算量是4K窗口的250倍——而模型可能只需要关注其中几千个相关Token。

稀疏注意力登场

最有前景的技术方案是稀疏注意力，它将复杂度从O(n²)降至O(n log n)甚至O(n)。Google的Reformer（2020年）引入了局部敏感哈希来聚类相似Token，但实际采用进展缓慢。真正的突破来自Mistral AI的滑动窗口注意力，已在他们的Mixtral 8x7B模型中实现（开源在GitHub上，目前拥有48k+星标）。该方法限制每个Token仅关注其局部邻域（通常为4,096个Token），同时使用独立的全局注意力机制处理长距离依赖。基准测试显示，在长上下文任务上，该方法能达到全注意力质量的95%以上，同时将计算量减少70-80%。

| 注意力机制 | 复杂度 | 质量（LongBench得分） | 与全注意力相比的计算缩减 |
|---|---|---|---|
| 全注意力 | O(n²) | 42.3 | 基线 |
| 滑动窗口（4K） | O(n) | 40.1 | 减少78% |
| 稀疏+全局（Mistral） | O(n log n) | 41.8 | 减少72% |
| 线性注意力（Mamba） | O(n) | 38.9 | 减少85% |

数据要点： 稀疏注意力在计算量削减超过70%的同时，实现了与全注意力近乎持平的质量。LongBench得分上2.5分的差距正随着更优的混合设计迅速缩小。

模型蒸馏：7B参数革命

或许最具影响力的效率技术是模型蒸馏，即让一个大型“教师”模型训练一个较小的“学生”模型来模仿其输出。开源社区已积极拥抱这一方法。微软的Phi-3系列（3.8B参数）在许多任务上达到了GPT-3.5级别的性能，仅使用3.8B参数，通过教科书级数据与GPT-4蒸馏相结合的方式训练而成。Phi-3-mini的GitHub仓库拥有15k+星标，证明一个3.8B参数的模型可以在智能手机上运行，同时在推理基准测试中与规模大25倍的模型相匹敌。

| 模型 | 参数 | MMLU得分 | 每百万Token推理成本 |
|---|---|---|---|
| GPT-4 | ~1.8T（估计） | 86.4 | $30.00 |
| Claude 3 Opus | ~2T（估计） | 86.8 | $15.00 |
| Phi-3-mini | 3.8B | 69.0 | $0.14 |
| Llama 3 8B | 8B | 68.4 | $0.20 |
| Mixtral 8x7B | 47B（活跃：13B） | 70.6 | $0.60 |

数据要点： 蒸馏模型以GPT-4推理成本的0.5%，实现了其MMLU得分的80%。对于大多数企业应用而言，17分的差距与200倍的成本节省相比微不足道。

关键玩家与案例研究

Google DeepMind 在推动效率方面最为激进。其Gemini 1.5 Pro尽管拥有1M+的上下文窗口，但采用了混合专家（MoE）架构，每个Token仅激活参数的一小部分。这使得他们能够提供业界最大的上下文窗口，同时保持有竞争力的定价（每百万输入Token $3.50，而GPT-4o为$5.00）。他们发表在《Mixture of Experts in Transformers》论文中的内部研究显示，与同等质量的密集模型相比，MoE将训练成本降低了40%，推理成本降低了60%。

Anthropic 采取了不同的路径。他们没有追逐上下文窗口，而是专注于“宪法AI”与安全性，但其经济模型同样以效率为驱动。Claude 3 Haiku是他们最小的模型，专为高吞吐量、低延迟应用设计，定价为每百万Token $0.25。这使其成为GPT-4o mini（每百万Token $0.15）的直接竞争对手，但在基准测试中展现出更优的推理能力。Anthropic的策略揭示了一个关键洞察：API市场的赢家既不是最便宜的，也不是最聪明的，而是提供最佳智能-美元比率的那个。

OpenAI 适应较慢，但如今正在积极转向。GPT-4o mini的发布是对市场需求效率的直接回应。OpenAI内部文件在2025年初泄露，显示其推理成本正以每年300%的速度增长，威胁到盈利能力。他们的解决方案是：新一代自研推理芯片（代号“Triton”），结合激进的模型剪枝与量化。早期基准测试表明，在推理工作负载上，Triton芯片的每瓦性能比NVIDIA H100高出4倍。

NVIDIA 正面临这一转变带来的生存威胁。如果行业从以训练为中心转向以推理为中心的计算，对H100/B200 GPU的需求可能会趋于平稳。

时间归档

延伸阅读

常见问题

这次模型发布“The Token Famine: Why AI Giants Are Rationing Compute and Rewriting the Rules”的核心内容是什么？

For years, the AI industry operated under a simple mantra: more tokens, more intelligence. Tech giants poured billions into expanding model parameters and context windows, chasing…

从“What is the token efficiency crisis in AI and why does it matter?”看，这个模型发布为什么重要？

The token efficiency crisis is fundamentally a mathematical problem. The transformer architecture, which underpins virtually every modern LLM, has a computational complexity of O(n²) for self-attention, where n is the se…

围绕“How do sparse attention mechanisms reduce AI compute costs?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。