Token定价正在扼杀AI创新：为什么“按字计费”的计时器正在倒计时

2026年6月19日 04:31 AINews Hacker News June 2026

来源：Hacker News AI business model 归档：June 2026

当前主流的AI定价模式——每次推理按Token收费——是一场短视的赌博，正危及它试图建立的整个生态系统。AINews认为，对每一次“思考”进行计量，正在扼杀推动突破性应用的探索行为，并促使开发者转向包月或按结果付费的竞争对手。

AI行业基本已形成一种在纸面上看似合理的定价模式：按用户消耗的计算量收费，以Token为计量单位。无论是简单的聊天补全，还是复杂的多步骤智能体工作流，OpenAI、Anthropic、Google以及众多小型模型提供商都按Token收费。但这种看似公平的方式正在引发一场无声的危机。开发者开始对成本变得敏感，回避了当初让ChatGPT病毒式传播的那种实验精神。AI智能体和世界模型的兴起——它们需要数十次甚至数百次连续的模型调用——使问题变得尖锐。一个单一的智能体任务，其成本可能超过一个月的SaaS订阅费。本文追溯了平台经济学的历史，从AWS的按需定价到SaaS的订阅革命，揭示了当前困境的根源。

技术深度解析

Token定价模型直接反映了大型语言模型的底层架构。每一次交互——每一次提示、每一次补全——都被分解为Token，即子词单元。模型成本与处理的Token数量大致呈线性关系，无论是前向传播（生成）还是训练中的反向传播。OpenAI、Anthropic和Google等提供商只是简单地将这种内部成本结构映射到了外部定价上。例如，GPT-4o的输入Token价格为每百万个5美元，输出Token价格为每百万个15美元。Claude 3.5 Sonnet的价格是3美元/15美元。这看起来透明且公平。

但技术现实更为复杂。由于硬件改进（NVIDIA从H100到B200的过渡、Google TPU v5p等定制ASIC）、软件优化（vLLM、TensorRT-LLM、GPTQ和AWQ等量化技术）以及架构创新（如Mixtral 8x7B的混合专家模型、推测解码），推理的边际成本正在迅速下降。2023年一次成本为0.01美元的推理调用，到2025年可能只需0.001美元。然而，Token价格并未按比例下降。不断下降的边际成本与僵化的Token价格之间的差距，为提供商带来了纯利润空间——这是开发者支付的“Token税”。

| 模型提供商 | 每百万Token输入成本（2024年） | 每百万Token预估边际成本（2025年） | 加价倍数 |
|---|---|---|---|
| OpenAI (GPT-4o) | $5.00 | $0.30 - $0.50 (预估) | 10x - 16x |
| Anthropic (Claude 3.5 Sonnet) | $3.00 | $0.20 - $0.40 (预估) | 7.5x - 15x |
| Google (Gemini 1.5 Pro) | $3.50 | $0.25 - $0.45 (预估) | 8x - 14x |
| Meta (Llama 3.1 405B via API) | $2.00 | $0.15 - $0.30 (预估) | 7x - 13x |

数据要点： 推理的加价幅度巨大，并且随着硬件效率的提升而增长。这是一种蓄意的定价策略，而非成本传导。

对于构建AI智能体的开发者来说，Token税是毁灭性的。一个单一的智能体循环——规划、工具调用、观察、推理、行动——可能需要5到10次模型调用。一个执行文献综述的复杂研究智能体可能需要100次以上的调用。按当前价格计算，一次研究会话的成本可能高达10到50美元。这对个人开发者或小型初创公司来说是不可持续的。开源社区已经通过LangChain和AutoGPT等项目做出了回应，但这些框架仍然依赖于底层的API调用。GitHub仓库'gpt-researcher'（2万+星标）试图自动化研究，但向用户警告了API成本。Hugging Face的'smolagents'库（5千+星标）试图通过更好的提示工程来最小化Token使用，但根本的成本问题依然存在。

关键参与者与案例研究

Token定价模式在主要AI模型提供商中几乎是通用的。OpenAI、Anthropic、Google、Cohere、AI21 Labs和Mistral都按Token收费。唯一的显著例外是Perplexity AI，它为其搜索产品提供固定费率的订阅，但其底层API仍然使用Token定价。这种同质性表明存在一个集体行动问题：没有一家提供商愿意成为第一个放弃Token定价的公司，担心收入会下降。

| 公司 | 主要定价模式 | Token成本（每百万输入/输出） | 提供固定费率选项？ |
|---|---|---|---|
| OpenAI | 按Token计费 | $5/$15 (GPT-4o) | 否（仅有带限制的免费层） |
| Anthropic | 按Token计费 | $3/$15 (Claude 3.5) | 否 |
| Google | 按Token计费 | $3.50/$10.50 (Gemini 1.5 Pro) | 否 |
| Perplexity | 订阅制 | 不适用（内部） | 是（Pro版每月$20） |
| Replit | 订阅制 + 按Token计费 | 不适用（内部） | 是（计算资源每月$25） |

数据要点： 只有那些在模型之上构建了完整产品（搜索、编码IDE）的公司才能提供固定费率定价。纯粹的API提供商被困在了按Token计费的模式中。

历史类比具有启发性。在云计算早期（大约2006-2010年），AWS按CPU小时和GB存储收费。这是基础设施成本的直接传导。但随着市场成熟，Heroku以及后来的无服务器平台（AWS Lambda、Google Cloud Functions）抽象掉了原始资源成本。它们按请求或执行次数收费，而不是按CPU周期收费。最成功的平台公司——Salesforce、Shopify、Stripe——按交易价值的百分比收费，而不是为交易背后的计算能力收费。它们将自己的激励措施与用户的成功对齐。

以在线编码平台Replit为例。Replit最初提供带有限计算资源的免费层，然后转向订阅模式（Hacker计划每月$25），其中包括用于AI辅助代码补全（Ghostwriter）的无限计算资源。这种固定费率模式对其在学生和业余开发者中的普及至关重要。同样，AI优先的代码编辑器Cursor对无限补全收取每月$20的固定费用。这些公司明白，如果每次使用AI工具都要担心成本，开发者就不会使用它。

时间归档

常见问题

这次模型发布“Token Pricing Is Killing AI Innovation: Why the Meter Is Running Out”的核心内容是什么？

The AI industry has largely settled on a pricing model that feels logical on paper: charge users for the compute they consume, measured in tokens. OpenAI, Anthropic, Google, and a…

从“how much does an AI agent cost per task”看，这个模型发布为什么重要？

The token pricing model is a direct reflection of the underlying architecture of large language models. Every interaction—every prompt, every completion—is broken down into tokens, which are subword units. The model's co…

围绕“flat rate AI API providers comparison 2025”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Token定价正在扼杀AI创新：为什么“按字计费”的计时器正在倒计时

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题