无限Token:为何按量计费的AI定价正在扼杀真正的智能

Hacker News May 2026
来源:Hacker News归档:May 2026
一场激烈的辩论正在重塑AI经济学:按Token收费是否在扼杀真正的智能?AINews认为,计量定价扭曲了用户行为,惩罚了深度思考,并从根本上误解了人机协作的本质,力推无限Token作为下一个范式。

大型语言模型的主流定价模式——按Token收费——正日益被视为阻碍AI变革潜力的瓶颈。这种从云计算按需付费理念继承而来的计量方式,无意中鼓励了浅层交互:用户为了控制成本而截断提示词、避免多轮推理、回避长文档分析或迭代代码重构等复杂任务。结果形成了一种“双输”动态:用户和模型都表现不佳。行业观察者正在将其与早期互联网时代相提并论,那时拨号上网的按分钟计费让位于宽带包月制。这一转变开启了数字时代——流媒体、电子商务、云服务。类似的转型正在AI领域酝酿:无限Token模式即将到来。

技术深度解析

这场辩论的核心在于Token——GPT-4、Claude、Llama等模型处理的文本原子单位。一个Token约等于0.75个英文单词,但其成本因模型和提供商而异。技术现实是,Transformer架构本质上是并行的:在固定开销(注意力计算、KV缓存)方面,生成100个Token与生成1个Token的计算成本几乎相同。然而,基于Token的计费将每个Token视为离散的、线性累加的成本,忽视了非线性的计算现实。

效率悖论: 现代推理优化——如推测解码、Flash Attention和连续批处理——降低了每Token的延迟和成本。例如,开源仓库[vLLM](https://github.com/vllm-project/vllm)(现已拥有超过40,000颗星)使用PagedAttention高效管理KV缓存,吞吐量比朴素实现高出24倍。然而,Token定价很少反映这些收益。用户为GPT-4o支付每百万Token 0.15美元,无论模型使用其理论吞吐量的10%还是90%,费率可能相同。这种脱节意味着,用户因模型本身优化的行为——长而连贯的推理链——而受到惩罚。

深度成本基准测试: 考虑一个复杂的多步推理任务,例如解决研究生级别的数学问题(如来自MATH数据集)。一个浅层的单Token答案可能得分很低,而一个500Token的思维链解决方案则能实现高精度。在Token定价下,后者的成本高出500倍。下表说明了常见基准测试中深度带来的成本惩罚:

| 任务 | 平均Token数(浅层) | 平均Token数(深度推理) | 成本比(深度/浅层) | 准确率提升 |
|---|---|---|---|---|
| MATH(Level 5) | 50 | 1,200 | 24倍 | +35% |
| GPQA(专家级) | 80 | 2,500 | 31倍 | +28% |
| 长上下文问答(128k) | 200 | 8,000 | 40倍 | +40% |
| 代码生成(重构) | 150 | 3,000 | 20倍 | +50% |

数据要点: 当前的定价模式施加了沉重的“深度税”——用户为AI本应擅长提供的高质量推理多支付20-40倍的成本。这造成了满足于平庸、浅层输出的反常激励。

架构修复: 一些研究人员倡导“思考Token”——特殊Token,用于指示模型在内部分配更多计算资源,而不生成可见输出。OpenAI的o1模型系列暗示了这一点:它使用隐藏的思维链Token,不向用户收费。这等于默认了基于Token的计量与深度推理根本矛盾。下一步合乎逻辑的做法是将计费与Token数量完全脱钩,转向订阅或基于计算时间的模式。

关键参与者与案例研究

OpenAI: 2020年GPT-3时代基于Token定价的先驱。其当前API对GPT-4o每百万输入Token收费5美元,对o1收费15美元。尽管如此,他们已尝试为ChatGPT Pro(每月200美元)和Team计划(每用户每月25美元)提供固定费率层级。这种双重方法揭示了内部紧张关系:API仍按量计费,但消费产品正走向无限使用。o1模型的隐藏推理Token是一个明确信号,表明即使OpenAI也认识到Token计费对高级推理的限制。

Anthropic: Claude 3.5 Sonnet和Opus遵循类似的Token定价(每百万Token 3/15美元)。然而,Anthropic更积极地宣传“上下文窗口”作为高级功能——对更大的上下文(如200K Token)收取更高费用。其“Claude for Work”企业计划包含固定月费和使用限制,但并非真正的无限Token。该公司关于“宪法AI”和“长上下文忠实性”的研究直接受益于无限Token访问,但其定价尚未跟上。

Google DeepMind: Gemini 1.5 Pro提供100万Token的上下文窗口,并按字符收费(类似于Token)。Google的消费产品(通过Google One的Gemini Advanced)使用带使用上限的订阅模式,但并非无限。他们对“Infini-Attention”和“混合专家”的研究旨在降低每Token成本,但定价模式仍是云API思维的遗留产物。

新兴颠覆者: 几家初创公司正在挑战现状:
- Together AI: 提供“按Token付费”API,但也有“Turbo”层级,以固定月费提供更高吞吐量。
- Fireworks AI: 提供按Token定价的“无服务器”端点,但强调面向企业的“可预测定价”。
- Perplexity AI: 其Pro订阅(每月20美元)包括无限查询,实际上是搜索领域的无限Token模式。这推动了快速增长——截至2025年初,月活跃用户超过1000万。
- DeepSeek(中国): 其开源模型(DeepSeek-V2、DeepSeek-R1)极其便宜——每百万Token仅0.14美元

更多来自 Hacker News

AI领域没有银弹:技术魔术背后的隐性代价AI行业正沉浸于一种“魔术叙事”:代码生成器能从一句提示写出完整函数,视频模型从文本中幻化出逼真场景,智能体自主驾驭复杂工作流。然而表象之下,更深层的真相正在浮现。重读弗雷德·布鲁克斯1986年的开创性论文《没有银弹——软件工程的本原与附属Atlas引擎从零重写LLM推理:Rust与CUDA的革命?长期以来,AI推理引擎领域一直被构建在PyTorch、TensorFlow等重型框架之上的方案所主导,这些引擎继承了框架的抽象开销和内存管理低效问题。由系统工程师和AI研究员团队开发的全新推理引擎Atlas,彻底打破了这一模式。它从底层开始Hi-Vis攻击:单次查询即告突破,利用大模型对系统更新的“无条件信任”Hi-Vis攻击代表了对抗性提示工程的一次范式转变,从暴力试探转向了上下文社会工程学。攻击者将恶意载荷包裹在系统更新或软件补丁的语言中,诱使大语言模型执行有害指令,同时绕过安全过滤器。我们的分析揭示,这种攻击利用了大语言模型内部一个根本性的查看来源专题页Hacker News 已收录 3322 篇文章

时间归档

May 20261361 篇已发布文章

延伸阅读

AI经济平台:将技术热潮转化为可衡量的资产类别一个专业情报平台正在崛起,旨在解码AI产业的财务动态——追踪计算成本、代币定价、模型许可和投资流向。这标志着从原始性能指标向经济可持续性的关键转变,为企业提供了将AI视为可管理资产类别所需的透明度。Sierra收购Fragment:用数据驱动智能体重新定义AI客服Bret Taylor创立的AI客服公司Sierra收购了YC孵化的初创公司Fragment,后者专注于实时数据提取与文档理解。这一收购标志着从对话式AI向深度上下文感知的企业智能体的战略转型,让每一次交互都转化为结构化、可执行的数据。八万一千名沉默用户揭示AI经济现实:从狂热炒作到硬核ROI计算一项针对8.1万次真实AI用户会话的突破性分析揭示了一场静默但剧烈的转向:AI经济已进入价值勘探阶段。用户不再为原始能力着迷,而是开始精密计算每次交互的成本效益比,要求其认知与资金投入获得清晰回报。这一行为转变正在重塑产品开发逻辑与商业模式AI智能体成为数字公民:自主购买NFT与链上治理新纪元AI与Web3的交叉地带正发生范式转移。AI智能体不再仅是工具,而是作为独立经济实体崛起——它们自主竞拍Nouns等NFT资产,并在去中心化治理中投票。这标志着AI作为数字公民的诞生,正在从根本上重构去中心化生态的参与规则。

常见问题

这次模型发布“Unlimited Tokens: Why Metered AI Pricing Is Killing True Intelligence”的核心内容是什么?

The dominant pricing model for large language models—charging per token—is increasingly seen as a bottleneck to AI's transformative potential. This metered approach, inherited from…

从“unlimited tokens vs token pricing AI comparison”看,这个模型发布为什么重要?

At the core of this debate lies the token—the atomic unit of text that models like GPT-4, Claude, and Llama process. A token is roughly 0.75 words in English, but its cost varies dramatically by model and provider. The t…

围绕“why token-based billing is bad for AI reasoning”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。