无限Token:为何按量计费的AI定价正在扼杀真正的智能

Hacker News May 2026
来源:Hacker News归档:May 2026
一场激烈的辩论正在重塑AI经济学:按Token收费是否在扼杀真正的智能?AINews认为,计量定价扭曲了用户行为,惩罚了深度思考,并从根本上误解了人机协作的本质,力推无限Token作为下一个范式。

大型语言模型的主流定价模式——按Token收费——正日益被视为阻碍AI变革潜力的瓶颈。这种从云计算按需付费理念继承而来的计量方式,无意中鼓励了浅层交互:用户为了控制成本而截断提示词、避免多轮推理、回避长文档分析或迭代代码重构等复杂任务。结果形成了一种“双输”动态:用户和模型都表现不佳。行业观察者正在将其与早期互联网时代相提并论,那时拨号上网的按分钟计费让位于宽带包月制。这一转变开启了数字时代——流媒体、电子商务、云服务。类似的转型正在AI领域酝酿:无限Token模式即将到来。

技术深度解析

这场辩论的核心在于Token——GPT-4、Claude、Llama等模型处理的文本原子单位。一个Token约等于0.75个英文单词,但其成本因模型和提供商而异。技术现实是,Transformer架构本质上是并行的:在固定开销(注意力计算、KV缓存)方面,生成100个Token与生成1个Token的计算成本几乎相同。然而,基于Token的计费将每个Token视为离散的、线性累加的成本,忽视了非线性的计算现实。

效率悖论: 现代推理优化——如推测解码、Flash Attention和连续批处理——降低了每Token的延迟和成本。例如,开源仓库[vLLM](https://github.com/vllm-project/vllm)(现已拥有超过40,000颗星)使用PagedAttention高效管理KV缓存,吞吐量比朴素实现高出24倍。然而,Token定价很少反映这些收益。用户为GPT-4o支付每百万Token 0.15美元,无论模型使用其理论吞吐量的10%还是90%,费率可能相同。这种脱节意味着,用户因模型本身优化的行为——长而连贯的推理链——而受到惩罚。

深度成本基准测试: 考虑一个复杂的多步推理任务,例如解决研究生级别的数学问题(如来自MATH数据集)。一个浅层的单Token答案可能得分很低,而一个500Token的思维链解决方案则能实现高精度。在Token定价下,后者的成本高出500倍。下表说明了常见基准测试中深度带来的成本惩罚:

| 任务 | 平均Token数(浅层) | 平均Token数(深度推理) | 成本比(深度/浅层) | 准确率提升 |
|---|---|---|---|---|
| MATH(Level 5) | 50 | 1,200 | 24倍 | +35% |
| GPQA(专家级) | 80 | 2,500 | 31倍 | +28% |
| 长上下文问答(128k) | 200 | 8,000 | 40倍 | +40% |
| 代码生成(重构) | 150 | 3,000 | 20倍 | +50% |

数据要点: 当前的定价模式施加了沉重的“深度税”——用户为AI本应擅长提供的高质量推理多支付20-40倍的成本。这造成了满足于平庸、浅层输出的反常激励。

架构修复: 一些研究人员倡导“思考Token”——特殊Token,用于指示模型在内部分配更多计算资源,而不生成可见输出。OpenAI的o1模型系列暗示了这一点:它使用隐藏的思维链Token,不向用户收费。这等于默认了基于Token的计量与深度推理根本矛盾。下一步合乎逻辑的做法是将计费与Token数量完全脱钩,转向订阅或基于计算时间的模式。

关键参与者与案例研究

OpenAI: 2020年GPT-3时代基于Token定价的先驱。其当前API对GPT-4o每百万输入Token收费5美元,对o1收费15美元。尽管如此,他们已尝试为ChatGPT Pro(每月200美元)和Team计划(每用户每月25美元)提供固定费率层级。这种双重方法揭示了内部紧张关系:API仍按量计费,但消费产品正走向无限使用。o1模型的隐藏推理Token是一个明确信号,表明即使OpenAI也认识到Token计费对高级推理的限制。

Anthropic: Claude 3.5 Sonnet和Opus遵循类似的Token定价(每百万Token 3/15美元)。然而,Anthropic更积极地宣传“上下文窗口”作为高级功能——对更大的上下文(如200K Token)收取更高费用。其“Claude for Work”企业计划包含固定月费和使用限制,但并非真正的无限Token。该公司关于“宪法AI”和“长上下文忠实性”的研究直接受益于无限Token访问,但其定价尚未跟上。

Google DeepMind: Gemini 1.5 Pro提供100万Token的上下文窗口,并按字符收费(类似于Token)。Google的消费产品(通过Google One的Gemini Advanced)使用带使用上限的订阅模式,但并非无限。他们对“Infini-Attention”和“混合专家”的研究旨在降低每Token成本,但定价模式仍是云API思维的遗留产物。

新兴颠覆者: 几家初创公司正在挑战现状:
- Together AI: 提供“按Token付费”API,但也有“Turbo”层级,以固定月费提供更高吞吐量。
- Fireworks AI: 提供按Token定价的“无服务器”端点,但强调面向企业的“可预测定价”。
- Perplexity AI: 其Pro订阅(每月20美元)包括无限查询,实际上是搜索领域的无限Token模式。这推动了快速增长——截至2025年初,月活跃用户超过1000万。
- DeepSeek(中国): 其开源模型(DeepSeek-V2、DeepSeek-R1)极其便宜——每百万Token仅0.14美元

更多来自 Hacker News

NLNet Labs向AI宣战:开源代码禁止用于大模型训练NLNet Labs近日更新了其开源软件的许可条款,明确禁止将包括广泛部署的Unbound和NSD在内的代码用于大语言模型的训练或推理,除非获得商业授权。这一举措的影响远超DNS社区,直接挑战了AI行业长期默认的“公开代码可自由使用”的假设LLM让硬件设计像说话一样简单:M5Stack革命来袭一个突破性的开源项目已经问世,它证明大语言模型现在能够将日常语言转化为M5Stack生态系统的完整硬件设计。工程师不再需要记忆引脚定义、I2C地址和电源需求,用户只需描述他们想要什么——比如“一个测量温湿度并显示在屏幕上的设备”——LLM就OpenClaw Launch 发布:30秒部署AI Agent,零DevOps,重新定义交付速度本周发布的 OpenClaw Launch 是一个托管运行时,它将运行自主AI Agent所需的整个DevOps栈——包括扩缩容、安全、更新和监控——封装在单次点击背后。用户只需定义Agent的逻辑,即可在30秒内获得一个可直接投入生产的端查看来源专题页Hacker News 已收录 5300 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Token经济学:AI从订阅制到按量付费如何重塑行业格局AI行业正悄然告别固定月费订阅,转向基于Token的计量计费模式。这一从“丰裕”到“问责”的转变,正在重塑模型架构、开发者行为乃至企业预算——每一次API调用都成为微观经济决策。AI编程定价陷阱:为什么“无限”套餐可能让你花更多钱AI编程工具正陷入一场定价混战,但按Token计费与“无限”订阅之间的较量,掩盖了一套隐藏的成本结构。我们的分析揭示,由于限速、模型降级和生态锁定,开发者在使用无限套餐时,每行代码的实际支出可能更高。Wattfare颠覆AI经济模式:用户自付API账单,开发者不再承压一家名为Wattfare的初创公司正在彻底改变AI应用的经济逻辑:不再是开发者承担API成本,而是用户自带预算。受创始人一个爆款项目惨遭300美元AI费用压垮的亲身经历启发,这套类似OAuth的支付层机制,有望从根本上改变AI推理费用的支付DeepSeek's Paradox: Can Billion-Dollar Spending Preserve Its Low-Price Moat?DeepSeek's bet that AI can be both powerful and cheap has ignited an application boom. But as user numbers skyrocket, th

常见问题

这次模型发布“Unlimited Tokens: Why Metered AI Pricing Is Killing True Intelligence”的核心内容是什么?

The dominant pricing model for large language models—charging per token—is increasingly seen as a bottleneck to AI's transformative potential. This metered approach, inherited from…

从“unlimited tokens vs token pricing AI comparison”看,这个模型发布为什么重要?

At the core of this debate lies the token—the atomic unit of text that models like GPT-4, Claude, and Llama process. A token is roughly 0.75 words in English, but its cost varies dramatically by model and provider. The t…

围绕“why token-based billing is bad for AI reasoning”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。