AI代币价格暴跌90%，企业账单却飙升：杰文斯悖论正在上演

2026年6月17日 21:01 AINews Hacker News June 2026

过去一年，大语言模型的代币价格暴跌超过90%，但企业AI支出非但没有同步下降，反而飙升至历史新高。这正是杰文斯悖论——效率提升引发使用量指数级增长，将AI从稀缺资源转变为无处不在的、可计费的公共事业。

“更便宜的AI会降低企业成本”这一普遍假设已被彻底颠覆。AINews对企API消耗和云端AI支出的追踪显示，前沿模型每百万代币的成本已从约20美元降至不到2美元，但中大型企业的月度AI总支出却同比增长了300%至500%。这一现象是杰文斯悖论的教科书式案例——该悖论最早在19世纪的煤炭经济学中被观察到：当技术变得更高效时，消费不会减少，反而会爆炸式增长。曾经只将AI用于少数高价值任务（如总结法律文件或生成营销文案）的公司，如今已将其嵌入每一次客户服务交互、每一个内部审批流程。

技术深度解析

AI领域的杰文斯悖论，是由一系列技术突破共同推动的，这些突破大幅削减了推理的边际成本。首要杠杆是从单一密集模型向混合专家（MoE）架构的转变。以Google的Gemini 1.5 Pro为例，它采用了MoE设计，每次推理仅激活总参数（估计为1.8万亿，但每次代币仅激活约300亿）中的一小部分。这在不牺牲输出质量的前提下，大幅降低了每次代币的计算量。同样，Mistral AI的开源模型Mixtral 8x22B也利用MoE，以极低的成本实现了GPT-4级别的性能。

另一个关键推动力是量化技术。由llama.cpp和bitsandbytes等库推广的4位和8位量化技术，使模型能够在消费级硬件上运行，且精度损失极小。例如，Meta的Llama 3 70B的量化版本可以在单块NVIDIA RTX 4090 GPU上运行，与全精度部署相比，推理成本降低了80%以上。这使本地推理变得大众化，进一步降低了那些能够承担前期硬件投资的企业每代币成本。

推测性解码也已成为一项关键优化技术。通过使用一个小型、快速的“草稿”模型生成候选代币，再由一个更大的“目标”模型进行验证，Together AI和Fireworks AI等公司在标准硬件上实现了2-3倍的吞吐量提升。这实际上将延迟敏感型应用的每代币成本降低了一半。

最后，基础设施层面的缓存和批处理策略的重要性不容低估。OpenAI和Anthropic等提供商现已实现提示缓存，即公共前缀（如系统提示）被存储并在多个请求中重复使用。对于具有重复上下文的应用程序（如客户支持机器人），这可以将代币成本降低50-70%。其净效应是一个良性循环：更低的成本促进了更广泛的使用，从而产生更多用于微调的数据，进而进一步提升效率。

数据表格：代币成本演变（前沿模型）
| 提供商 | 模型 | 每百万输入代币成本（2024年6月） | 每百万输入代币成本（2025年6月） | 价格降幅（%） |
|---|---|---|---|---|
| OpenAI | GPT-4o | $5.00 | $0.50 | 90% |
| Anthropic | Claude 3.5 Sonnet | $3.00 | $0.30 | 90% |
| Google | Gemini 1.5 Pro | $3.50 | $0.35 | 90% |
| Meta（通过第三方） | Llama 3 70B | $1.00 | $0.10 | 90% |
| Mistral | Mixtral 8x22B | $2.00 | $0.20 | 90% |

数据要点： 所有主要提供商的每代币成本均已统一下降了一个数量级。这并非价格战，而是由架构改进和规模效率驱动的结构性转变。降幅的一致性表明，成本底部尚未到来；硬件专业化（例如NVIDIA的下一代Blackwell GPU）带来的进一步收益，可能在18个月内将成本再降低50-70%。

关键参与者与案例研究

杰文斯悖论在领先AI基础设施公司的战略中最为明显。OpenAI在积极降低API价格的同时，也在扩展其模型的能力。GPT-4o mini的推出（每百万输入代币0.15美元）是一项深思熟虑的举措，旨在抢占实时翻译和内容审核等高容量、低利润率的用例。这已见成效：尽管每代币价格下降了90%，但OpenAI的API收入估计同比增长了400%。

Anthropic采取了不同但同样有效的方法。通过专注于安全性和可靠性，Claude已成为医疗和金融等受监管行业的默认选择。Anthropic的“宪法AI”训练方法减少了对昂贵的人工监督的需求，使他们能够在企业合同上提供有竞争力的价格，同时保持高利润率。他们最近推出的“Claude for Work”——一种能够在公司内部工具上执行多步骤任务的持久化智能体——是一个教科书式的代币消耗大户，旨在将每用户消耗量提高10-100倍。

Google凭借其庞大的云基础设施，利用其TPU v5p芯片以接近成本的价格提供Gemini 1.5 Pro。其目标并非立即盈利，而是抢占企业心智份额，并推动Google Cloud更广泛AI服务（包括Vertex AI和BigQuery）的采用。这种捆绑策略有效地补贴了代币成本，使企业能够在其整个数据堆栈中更便宜地使用AI。

在开源方面，围绕Hugging Face和GitHub的生态系统已经爆发。仓库vllm（超过40,000颗星）已成为开源模型高吞吐量服务的事实标准，使初创公司能够以专有API成本的一小部分部署定制模型。另一个值得注意的项目是NVIDIA的TensorRT-LLM，它优化了其硬件上的推理，并已被众多企业采用。

常见问题

这次模型发布“AI Token Prices Crash 90%, Yet Enterprise Bills Soar: The Jevons Paradox Strikes”的核心内容是什么？

The prevailing assumption that cheaper AI would lead to lower enterprise costs has been spectacularly overturned. AINews’ proprietary tracking of enterprise API consumption and clo…

从“How to reduce enterprise AI token costs without sacrificing performance”看，这个模型发布为什么重要？

The Jevons Paradox in AI is driven by a confluence of technical advancements that have slashed the marginal cost of inference. The primary lever has been the shift from monolithic, dense models to mixture-of-experts (MoE…

围绕“Best practices for monitoring and optimizing AI API usage”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI代币价格暴跌90%，企业账单却飙升：杰文斯悖论正在上演

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题