无限Token：为何按量计费的AI定价正在扼杀真正的智能

大型语言模型的主流定价模式——按Token收费——正日益被视为阻碍AI变革潜力的瓶颈。这种从云计算按需付费理念继承而来的计量方式，无意中鼓励了浅层交互：用户为了控制成本而截断提示词、避免多轮推理、回避长文档分析或迭代代码重构等复杂任务。结果形成了一种“双输”动态：用户和模型都表现不佳。行业观察者正在将其与早期互联网时代相提并论，那时拨号上网的按分钟计费让位于宽带包月制。这一转变开启了数字时代——流媒体、电子商务、云服务。类似的转型正在AI领域酝酿：无限Token模式即将到来。

技术深度解析

这场辩论的核心在于Token——GPT-4、Claude、Llama等模型处理的文本原子单位。一个Token约等于0.75个英文单词，但其成本因模型和提供商而异。技术现实是，Transformer架构本质上是并行的：在固定开销（注意力计算、KV缓存）方面，生成100个Token与生成1个Token的计算成本几乎相同。然而，基于Token的计费将每个Token视为离散的、线性累加的成本，忽视了非线性的计算现实。

效率悖论： 现代推理优化——如推测解码、Flash Attention和连续批处理——降低了每Token的延迟和成本。例如，开源仓库[vLLM](https://github.com/vllm-project/vllm)（现已拥有超过40,000颗星）使用PagedAttention高效管理KV缓存，吞吐量比朴素实现高出24倍。然而，Token定价很少反映这些收益。用户为GPT-4o支付每百万Token 0.15美元，无论模型使用其理论吞吐量的10%还是90%，费率可能相同。这种脱节意味着，用户因模型本身优化的行为——长而连贯的推理链——而受到惩罚。

深度成本基准测试： 考虑一个复杂的多步推理任务，例如解决研究生级别的数学问题（如来自MATH数据集）。一个浅层的单Token答案可能得分很低，而一个500Token的思维链解决方案则能实现高精度。在Token定价下，后者的成本高出500倍。下表说明了常见基准测试中深度带来的成本惩罚：

| 任务 | 平均Token数（浅层） | 平均Token数（深度推理） | 成本比（深度/浅层） | 准确率提升 |
|---|---|---|---|---|
| MATH（Level 5） | 50 | 1,200 | 24倍 | +35% |
| GPQA（专家级） | 80 | 2,500 | 31倍 | +28% |
| 长上下文问答（128k） | 200 | 8,000 | 40倍 | +40% |
| 代码生成（重构） | 150 | 3,000 | 20倍 | +50% |

数据要点： 当前的定价模式施加了沉重的“深度税”——用户为AI本应擅长提供的高质量推理多支付20-40倍的成本。这造成了满足于平庸、浅层输出的反常激励。

架构修复： 一些研究人员倡导“思考Token”——特殊Token，用于指示模型在内部分配更多计算资源，而不生成可见输出。OpenAI的o1模型系列暗示了这一点：它使用隐藏的思维链Token，不向用户收费。这等于默认了基于Token的计量与深度推理根本矛盾。下一步合乎逻辑的做法是将计费与Token数量完全脱钩，转向订阅或基于计算时间的模式。

关键参与者与案例研究

OpenAI： 2020年GPT-3时代基于Token定价的先驱。其当前API对GPT-4o每百万输入Token收费5美元，对o1收费15美元。尽管如此，他们已尝试为ChatGPT Pro（每月200美元）和Team计划（每用户每月25美元）提供固定费率层级。这种双重方法揭示了内部紧张关系：API仍按量计费，但消费产品正走向无限使用。o1模型的隐藏推理Token是一个明确信号，表明即使OpenAI也认识到Token计费对高级推理的限制。

Anthropic： Claude 3.5 Sonnet和Opus遵循类似的Token定价（每百万Token 3/15美元）。然而，Anthropic更积极地宣传“上下文窗口”作为高级功能——对更大的上下文（如200K Token）收取更高费用。其“Claude for Work”企业计划包含固定月费和使用限制，但并非真正的无限Token。该公司关于“宪法AI”和“长上下文忠实性”的研究直接受益于无限Token访问，但其定价尚未跟上。

Google DeepMind： Gemini 1.5 Pro提供100万Token的上下文窗口，并按字符收费（类似于Token）。Google的消费产品（通过Google One的Gemini Advanced）使用带使用上限的订阅模式，但并非无限。他们对“Infini-Attention”和“混合专家”的研究旨在降低每Token成本，但定价模式仍是云API思维的遗留产物。

新兴颠覆者： 几家初创公司正在挑战现状：
- Together AI： 提供“按Token付费”API，但也有“Turbo”层级，以固定月费提供更高吞吐量。
- Fireworks AI： 提供按Token定价的“无服务器”端点，但强调面向企业的“可预测定价”。
- Perplexity AI： 其Pro订阅（每月20美元）包括无限查询，实际上是搜索领域的无限Token模式。这推动了快速增长——截至2025年初，月活跃用户超过1000万。
- DeepSeek（中国）： 其开源模型（DeepSeek-V2、DeepSeek-R1）极其便宜——每百万Token仅0.14美元

时间归档

延伸阅读

常见问题

这次模型发布“Unlimited Tokens: Why Metered AI Pricing Is Killing True Intelligence”的核心内容是什么？

The dominant pricing model for large language models—charging per token—is increasingly seen as a bottleneck to AI's transformative potential. This metered approach, inherited from…

从“unlimited tokens vs token pricing AI comparison”看，这个模型发布为什么重要？

At the core of this debate lies the token—the atomic unit of text that models like GPT-4, Claude, and Llama process. A token is roughly 0.75 words in English, but its cost varies dramatically by model and provider. The t…

围绕“why token-based billing is bad for AI reasoning”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。