Token定价正在扼杀AI创新:为什么“按字计费”的计时器正在倒计时

Hacker News June 2026
来源:Hacker NewsAI business model归档:June 2026
当前主流的AI定价模式——每次推理按Token收费——是一场短视的赌博,正危及它试图建立的整个生态系统。AINews认为,对每一次“思考”进行计量,正在扼杀推动突破性应用的探索行为,并促使开发者转向包月或按结果付费的竞争对手。

AI行业基本已形成一种在纸面上看似合理的定价模式:按用户消耗的计算量收费,以Token为计量单位。无论是简单的聊天补全,还是复杂的多步骤智能体工作流,OpenAI、Anthropic、Google以及众多小型模型提供商都按Token收费。但这种看似公平的方式正在引发一场无声的危机。开发者开始对成本变得敏感,回避了当初让ChatGPT病毒式传播的那种实验精神。AI智能体和世界模型的兴起——它们需要数十次甚至数百次连续的模型调用——使问题变得尖锐。一个单一的智能体任务,其成本可能超过一个月的SaaS订阅费。本文追溯了平台经济学的历史,从AWS的按需定价到SaaS的订阅革命,揭示了当前困境的根源。

技术深度解析

Token定价模型直接反映了大型语言模型的底层架构。每一次交互——每一次提示、每一次补全——都被分解为Token,即子词单元。模型成本与处理的Token数量大致呈线性关系,无论是前向传播(生成)还是训练中的反向传播。OpenAI、Anthropic和Google等提供商只是简单地将这种内部成本结构映射到了外部定价上。例如,GPT-4o的输入Token价格为每百万个5美元,输出Token价格为每百万个15美元。Claude 3.5 Sonnet的价格是3美元/15美元。这看起来透明且公平。

但技术现实更为复杂。由于硬件改进(NVIDIA从H100到B200的过渡、Google TPU v5p等定制ASIC)、软件优化(vLLM、TensorRT-LLM、GPTQ和AWQ等量化技术)以及架构创新(如Mixtral 8x7B的混合专家模型、推测解码),推理的边际成本正在迅速下降。2023年一次成本为0.01美元的推理调用,到2025年可能只需0.001美元。然而,Token价格并未按比例下降。不断下降的边际成本与僵化的Token价格之间的差距,为提供商带来了纯利润空间——这是开发者支付的“Token税”。

| 模型提供商 | 每百万Token输入成本(2024年) | 每百万Token预估边际成本(2025年) | 加价倍数 |
|---|---|---|---|
| OpenAI (GPT-4o) | $5.00 | $0.30 - $0.50 (预估) | 10x - 16x |
| Anthropic (Claude 3.5 Sonnet) | $3.00 | $0.20 - $0.40 (预估) | 7.5x - 15x |
| Google (Gemini 1.5 Pro) | $3.50 | $0.25 - $0.45 (预估) | 8x - 14x |
| Meta (Llama 3.1 405B via API) | $2.00 | $0.15 - $0.30 (预估) | 7x - 13x |

数据要点: 推理的加价幅度巨大,并且随着硬件效率的提升而增长。这是一种蓄意的定价策略,而非成本传导。

对于构建AI智能体的开发者来说,Token税是毁灭性的。一个单一的智能体循环——规划、工具调用、观察、推理、行动——可能需要5到10次模型调用。一个执行文献综述的复杂研究智能体可能需要100次以上的调用。按当前价格计算,一次研究会话的成本可能高达10到50美元。这对个人开发者或小型初创公司来说是不可持续的。开源社区已经通过LangChain和AutoGPT等项目做出了回应,但这些框架仍然依赖于底层的API调用。GitHub仓库'gpt-researcher'(2万+星标)试图自动化研究,但向用户警告了API成本。Hugging Face的'smolagents'库(5千+星标)试图通过更好的提示工程来最小化Token使用,但根本的成本问题依然存在。

关键参与者与案例研究

Token定价模式在主要AI模型提供商中几乎是通用的。OpenAI、Anthropic、Google、Cohere、AI21 Labs和Mistral都按Token收费。唯一的显著例外是Perplexity AI,它为其搜索产品提供固定费率的订阅,但其底层API仍然使用Token定价。这种同质性表明存在一个集体行动问题:没有一家提供商愿意成为第一个放弃Token定价的公司,担心收入会下降。

| 公司 | 主要定价模式 | Token成本(每百万输入/输出) | 提供固定费率选项? |
|---|---|---|---|
| OpenAI | 按Token计费 | $5/$15 (GPT-4o) | 否(仅有带限制的免费层) |
| Anthropic | 按Token计费 | $3/$15 (Claude 3.5) | 否 |
| Google | 按Token计费 | $3.50/$10.50 (Gemini 1.5 Pro) | 否 |
| Perplexity | 订阅制 | 不适用(内部) | 是(Pro版每月$20) |
| Replit | 订阅制 + 按Token计费 | 不适用(内部) | 是(计算资源每月$25) |

数据要点: 只有那些在模型之上构建了完整产品(搜索、编码IDE)的公司才能提供固定费率定价。纯粹的API提供商被困在了按Token计费的模式中。

历史类比具有启发性。在云计算早期(大约2006-2010年),AWS按CPU小时和GB存储收费。这是基础设施成本的直接传导。但随着市场成熟,Heroku以及后来的无服务器平台(AWS Lambda、Google Cloud Functions)抽象掉了原始资源成本。它们按请求或执行次数收费,而不是按CPU周期收费。最成功的平台公司——Salesforce、Shopify、Stripe——按交易价值的百分比收费,而不是为交易背后的计算能力收费。它们将自己的激励措施与用户的成功对齐。

以在线编码平台Replit为例。Replit最初提供带有限计算资源的免费层,然后转向订阅模式(Hacker计划每月$25),其中包括用于AI辅助代码补全(Ghostwriter)的无限计算资源。这种固定费率模式对其在学生和业余开发者中的普及至关重要。同样,AI优先的代码编辑器Cursor对无限补全收取每月$20的固定费用。这些公司明白,如果每次使用AI工具都要担心成本,开发者就不会使用它。

更多来自 Hacker News

后LLM时代的面试革命:代码测试已死,工程思维为王软件工程面试正经历自白板时代以来最激进的变革。GPT-4o、Claude 3.5 Sonnet等大型语言模型,以及Code Llama、DeepSeek-Coder等开源替代方案的广泛采用,从根本上改变了“高效工程师”的定义。如今,候选人借超越短期奖励:有益强化学习如何重塑AI信任与安全强化学习长期以来一直是驱动AI能力快速提升的引擎,但其对即时奖励的执着追求也带来了意想不到的副作用——从奖励黑客行为到不安全的涌现行为。OpenAI的最新研究提出了一种名为「有益强化学习」(BRL)的新框架,从根本上重新思考了RL的目标。B你的名字在AI权重中:新工具曝光大模型里的数字身份一款新发布的工具使个人能够同时查询多个大语言模型,以确定这些模型是否拥有关于他们的知识——包括姓名、职业、显著成就或其他个人标识符。通过向一系列多样化的模型发送相同的提示——从GPT-4o和Claude 3.5等前沿系统,到Llama 3和查看来源专题页Hacker News 已收录 4904 篇文章

相关专题

AI business model40 篇相关文章

时间归档

June 20261804 篇已发布文章

延伸阅读

Prtokens 为 AI 公关代理算清成本账:Token 透明化时代来临一款名为 Prtokens 的全新开源工具,正为公关领域的 AI 代理提供精细化的成本核算,从新闻稿撰写到社交媒体互动,逐一计算每项任务的 Token 消耗。AINews 认为,这标志着行业正从“能力至上”的 AI 开发,转向“效率与 ROGuardian Runtime 将AI智能体Token成本削减70%:本地防火墙革命一款名为Guardian Runtime的全新开源工具,通过在本地拦截冗余API调用,正在重新定义自主AI智能体的经济性。AINews报道了这款“智能防火墙”如何将Token成本降低高达70%,首次让大规模智能体部署成为可能。OpenAI IPO:AI实验室商业化与市场耐心的终极试炼OpenAI正式启动IPO进程,将顶级AI实验室的市场吸引力置于首次公开检验之下。此举不仅关乎融资,更重新定义了行业从技术驱动向商业驱动的转型路径。TokenScale 将AI成本翻译成日常物品,让定价透明化TokenScale 推出了一款工具,将晦涩的 AI API Token 成本转化为直观的日常物品,例如生成整本《霍比特人》仅需 0.06 美元。此举直击企业采用 AI 的关键障碍:非技术决策者面临的成本不透明问题。

常见问题

这次模型发布“Token Pricing Is Killing AI Innovation: Why the Meter Is Running Out”的核心内容是什么?

The AI industry has largely settled on a pricing model that feels logical on paper: charge users for the compute they consume, measured in tokens. OpenAI, Anthropic, Google, and a…

从“how much does an AI agent cost per task”看,这个模型发布为什么重要?

The token pricing model is a direct reflection of the underlying architecture of large language models. Every interaction—every prompt, every completion—is broken down into tokens, which are subword units. The model's co…

围绕“flat rate AI API providers comparison 2025”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。