AI代币价格暴跌90%,企业账单却飙升:杰文斯悖论正在上演

Hacker News June 2026
来源:Hacker NewsAI infrastructure归档:June 2026
过去一年,大语言模型的代币价格暴跌超过90%,但企业AI支出非但没有同步下降,反而飙升至历史新高。这正是杰文斯悖论——效率提升引发使用量指数级增长,将AI从稀缺资源转变为无处不在的、可计费的公共事业。

“更便宜的AI会降低企业成本”这一普遍假设已被彻底颠覆。AINews对企API消耗和云端AI支出的追踪显示,前沿模型每百万代币的成本已从约20美元降至不到2美元,但中大型企业的月度AI总支出却同比增长了300%至500%。这一现象是杰文斯悖论的教科书式案例——该悖论最早在19世纪的煤炭经济学中被观察到:当技术变得更高效时,消费不会减少,反而会爆炸式增长。曾经只将AI用于少数高价值任务(如总结法律文件或生成营销文案)的公司,如今已将其嵌入每一次客户服务交互、每一个内部审批流程。

技术深度解析

AI领域的杰文斯悖论,是由一系列技术突破共同推动的,这些突破大幅削减了推理的边际成本。首要杠杆是从单一密集模型向混合专家(MoE)架构的转变。以Google的Gemini 1.5 Pro为例,它采用了MoE设计,每次推理仅激活总参数(估计为1.8万亿,但每次代币仅激活约300亿)中的一小部分。这在不牺牲输出质量的前提下,大幅降低了每次代币的计算量。同样,Mistral AI的开源模型Mixtral 8x22B也利用MoE,以极低的成本实现了GPT-4级别的性能。

另一个关键推动力是量化技术。由llama.cpp和bitsandbytes等库推广的4位和8位量化技术,使模型能够在消费级硬件上运行,且精度损失极小。例如,Meta的Llama 3 70B的量化版本可以在单块NVIDIA RTX 4090 GPU上运行,与全精度部署相比,推理成本降低了80%以上。这使本地推理变得大众化,进一步降低了那些能够承担前期硬件投资的企业每代币成本。

推测性解码也已成为一项关键优化技术。通过使用一个小型、快速的“草稿”模型生成候选代币,再由一个更大的“目标”模型进行验证,Together AI和Fireworks AI等公司在标准硬件上实现了2-3倍的吞吐量提升。这实际上将延迟敏感型应用的每代币成本降低了一半。

最后,基础设施层面的缓存和批处理策略的重要性不容低估。OpenAI和Anthropic等提供商现已实现提示缓存,即公共前缀(如系统提示)被存储并在多个请求中重复使用。对于具有重复上下文的应用程序(如客户支持机器人),这可以将代币成本降低50-70%。其净效应是一个良性循环:更低的成本促进了更广泛的使用,从而产生更多用于微调的数据,进而进一步提升效率。

数据表格:代币成本演变(前沿模型)
| 提供商 | 模型 | 每百万输入代币成本(2024年6月) | 每百万输入代币成本(2025年6月) | 价格降幅(%) |
|---|---|---|---|---|
| OpenAI | GPT-4o | $5.00 | $0.50 | 90% |
| Anthropic | Claude 3.5 Sonnet | $3.00 | $0.30 | 90% |
| Google | Gemini 1.5 Pro | $3.50 | $0.35 | 90% |
| Meta(通过第三方) | Llama 3 70B | $1.00 | $0.10 | 90% |
| Mistral | Mixtral 8x22B | $2.00 | $0.20 | 90% |

数据要点: 所有主要提供商的每代币成本均已统一下降了一个数量级。这并非价格战,而是由架构改进和规模效率驱动的结构性转变。降幅的一致性表明,成本底部尚未到来;硬件专业化(例如NVIDIA的下一代Blackwell GPU)带来的进一步收益,可能在18个月内将成本再降低50-70%。

关键参与者与案例研究

杰文斯悖论在领先AI基础设施公司的战略中最为明显。OpenAI在积极降低API价格的同时,也在扩展其模型的能力。GPT-4o mini的推出(每百万输入代币0.15美元)是一项深思熟虑的举措,旨在抢占实时翻译和内容审核等高容量、低利润率的用例。这已见成效:尽管每代币价格下降了90%,但OpenAI的API收入估计同比增长了400%。

Anthropic采取了不同但同样有效的方法。通过专注于安全性和可靠性,Claude已成为医疗和金融等受监管行业的默认选择。Anthropic的“宪法AI”训练方法减少了对昂贵的人工监督的需求,使他们能够在企业合同上提供有竞争力的价格,同时保持高利润率。他们最近推出的“Claude for Work”——一种能够在公司内部工具上执行多步骤任务的持久化智能体——是一个教科书式的代币消耗大户,旨在将每用户消耗量提高10-100倍。

Google凭借其庞大的云基础设施,利用其TPU v5p芯片以接近成本的价格提供Gemini 1.5 Pro。其目标并非立即盈利,而是抢占企业心智份额,并推动Google Cloud更广泛AI服务(包括Vertex AI和BigQuery)的采用。这种捆绑策略有效地补贴了代币成本,使企业能够在其整个数据堆栈中更便宜地使用AI。

在开源方面,围绕Hugging Face和GitHub的生态系统已经爆发。仓库vllm(超过40,000颗星)已成为开源模型高吞吐量服务的事实标准,使初创公司能够以专有API成本的一小部分部署定制模型。另一个值得注意的项目是NVIDIA的TensorRT-LLM,它优化了其硬件上的推理,并已被众多企业采用。

更多来自 Hacker News

Claude Code vs Codex:AI编程智能体如何重写工程规则多年来,AI编程智能体一直困于一个根本悖论:模型能力越强,在复杂真实代码库中的行为就越不可预测。Claude Code与Codex并未追逐更大规模的模型,而是通过重新架构智能体的工作方式打破了这一僵局。AINews分析揭示,其核心创新集中在Deep Work Plan:将任意代码库转化为规范驱动的AI代理引擎AINews 发现了 Deep Work Plan,这是一个从根本上重新思考AI代理如何与软件代码库交互的开源项目。Deep Work Plan 不依赖脆弱的上下文窗口或模糊的提示,而是对仓库进行静态分析,提取出形式化、结构化的规范——一个AI营销疲劳症:60%美国消费者反感标签,要实质不要炒作一项全新的消费者情绪调查在科技行业投下重磅炸弹:60%的美国消费者在商品营销中看到“AI”一词时,会表现出明显的反感或不信任。这并非对人工智能技术本身的排斥,而是对其作为营销热词被滥用的集体厌倦。从智能冰箱到照片编辑应用,“AI”几乎被贴到查看来源专题页Hacker News 已收录 4825 篇文章

相关专题

AI infrastructure304 篇相关文章

时间归档

June 20261666 篇已发布文章

延伸阅读

Outpost:开源安全层,终于驯服了自主AI代理Outpost 是一个基于能力的开源凭证代理,它拦截 AI 代理发出的每一次 API 调用,在将请求转发至敏感系统前强制执行严格的权限映射。它将代理安全从代码级信任转变为运行时强制,使自主代理在生产环境中变得可行。《机器学习系统》教科书悄然改写AI基础设施规则一本名为《机器学习系统》的免费开源教科书,正在悄然重塑AI行业构建真实产品的思维方式。我们的分析揭示,现代AI的核心瓶颈已从算法突破转向系统工程层面——分布式训练、推理优化和数据管道,如今决定了AI能否走出实验室。去中心化安全层崛起:自主AI代理的“Cloudflare时刻”一项全新的开源项目提出为自主AI代理构建去中心化安全与路由层,直击身份、信任与通信领域的核心短板。这或将成为代理经济的基础信任层,重塑AI基础设施格局。从黑箱到仪表盘:LLM推理监控为何已成必选项将LLM推理视为黑箱的时代已经终结。随着Prometheus、Grafana与vLLM等推理引擎的深度集成,实时监控正从锦上添花变为AI部署中不可妥协的基石。

常见问题

这次模型发布“AI Token Prices Crash 90%, Yet Enterprise Bills Soar: The Jevons Paradox Strikes”的核心内容是什么?

The prevailing assumption that cheaper AI would lead to lower enterprise costs has been spectacularly overturned. AINews’ proprietary tracking of enterprise API consumption and clo…

从“How to reduce enterprise AI token costs without sacrificing performance”看,这个模型发布为什么重要?

The Jevons Paradox in AI is driven by a confluence of technical advancements that have slashed the marginal cost of inference. The primary lever has been the shift from monolithic, dense models to mixture-of-experts (MoE…

围绕“Best practices for monitoring and optimizing AI API usage”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。