成本危机：AI烧钱模式即将崩塌

部署越来越大的语言模型的竞赛，制造了一种危险的可负担性幻觉。在创纪录的模型规模和不断增长的用户群的头条新闻背后，隐藏着一个严酷的现实：推理成本正在失控地螺旋上升。由风险投资补贴和云积分支撑的当前定价，掩盖了根本性的不可持续性。我们的分析表明，每一代新模型都需要指数级增长的计算资源，却只换来边际性能提升，在运营成本和收入潜力之间形成了日益扩大的鸿沟。许多初创公司实际上是在用资本购买用户，其单位经济模型在任何成熟市场都难以为继。“免费套餐”的军备竞赛进一步扭曲了真实服务成本，助长了虚假繁荣的泡沫。

技术深度剖析

成本危机的核心在于现代Transformer的基本架构。由Google和OpenAI研究人员率先提出的“蛮力”扩展范式认为，模型性能会随着参数、数据和计算量的增加而可预测地提升。虽然这在基准测试分数上经验证为真，但这种方法隐藏着一个成本：由于自注意力机制，推理复杂度随序列长度呈二次方增长，而每次前向传播的复杂度则随参数数量线性增长。

让我们算一笔账。对于一个像GPT-3这样拥有1750亿参数的模型，一次短提示的前向传播需要大约3500亿次浮点运算（FLOPs）。对于传闻中GPT-4的继任者——一个1万亿参数的模型，这个数字跃升至2万亿次FLOPs。每个token的成本与模型大小直接成正比。业界曾试图通过量化（将精度从FP32降至FP16或INT8）、剪枝（移除冗余权重）和知识蒸馏（训练较小的“学生”模型模仿较大的模型）等技术来缓解这一问题。然而，这些方法只能提供线性或次线性的改进，而模型大小却在指数级增长。

一种更有前景但仍处于萌芽阶段的方法是稀疏激活。Mixture-of-Experts（MoE）架构，如Mixtral 8x7B和Google的Gemini所使用的，每个token只激活一部分参数。这解耦了模型容量与每个token的计算成本。例如，Mixtral 8x7B总共有467亿参数，但每次前向传播仅使用约129亿参数，其性能可与稠密的700亿参数模型相媲美，而成本却低得多。开源社区已经接受了这一点：GitHub仓库`mistralai/mistral-src`已获得超过8500颗星，并提供了MoE推理的参考实现。然而，MoE也引入了新的挑战：专家间的负载均衡、更高的内存带宽需求以及复杂的路由逻辑。

动态计算分配是另一个前沿领域。系统不是对每个查询都使用相同的模型，而是可以将简单查询路由到更小、更便宜的模型，只将复杂查询升级到更大的模型。这种“级联”或“推测解码”方法正在被初创公司和研究实验室探索。GitHub仓库`google-research/t5x`包含了条件计算的实现，但生产就绪的系统仍然很少。

基准性能与推理成本

| 模型 | 参数（活跃） | MMLU分数 | 每百万token成本（输入） | 延迟（首token） |
|---|---|---|---|---|
| GPT-4（稠密，估计） | 1.7T (1.7T) | 86.4 | $30.00 | ~500ms |
| Claude 3 Opus（稠密，估计） | ~2T (2T) | 86.8 | $15.00 | ~400ms |
| Mixtral 8x22B (MoE) | 141B (39B) | 81.2 | $2.70 | ~200ms |
| Llama 3 70B（稠密） | 70B (70B) | 82.0 | $1.00 | ~150ms |
| GPT-3.5 Turbo（稠密，估计） | 175B (175B) | 70.0 | $0.50 | ~100ms |

数据要点： 该表格揭示了一个严峻的权衡。像GPT-4和Claude 3 Opus这样的前沿模型提供了顶级分数，但成本是较小模型的10到30倍。Mixtral 8x22B提供了一个引人注目的中间地带，以GPT-4 9%的成本实现了其94%的MMLU分数。这表明市场将分化为两极：前沿智能的高端定价，以及“足够好”模型的商品化定价。

关键参与者与案例研究

成本危机在整个生态系统中以不同的方式上演。OpenAI有微软数十亿美元的支持，能够负担其每月20美元的ChatGPT Plus订阅补贴，而该订阅的服务成本可能远高于此。该公司报告的年化收入为34亿美元，令人印象深刻，但推理成本估计消耗了其中的40-60%。OpenAI的策略是通过硬件优化（定制芯片）和规模效率来降低成本，但盈利之路仍不明朗。

Anthropic及其Claude模型采取了不同的方法。它提供了更昂贵的API（Claude 3 Opus每百万输入token 15美元），并避免了广泛的免费套餐。这表明了一种更现实的定价模式，但它限制了用户获取。该公司从Amazon和其他公司获得的50亿美元融资轮表明，即使定价更高，资本密集度也极高。

Google凭借Gemini，拥有自己的TPU硬件和庞大的数据中心基础设施优势。这种垂直整合使其具有成本优势，但它也面临着相同的基本扩展定律。Google决定以每月19.99美元（通过Google One）提供Gemini Ultra，是在押注用户会为高级AI付费，但收回开发成本所需的用户量是天文数字。

初创公司定价与估计成本

| 公司 | 产品 | 每次查询价格（估计） | 每次查询估计成本 | 利润率 |
|---|---|---|---|---|
| OpenAI | ChatGPT Plus (GPT-4) | $0.0007（基于每天30次查询） | $0.002-0.005 | -185% 至 -614% |
| Anthropic | Claude Pro (Opus) | $0.001 |

时间归档

延伸阅读

常见问题

这次模型发布“The Cost Crisis: Why AI's Burning Money Model Is About to Collapse”的核心内容是什么？

The race to deploy ever-larger language models has created a dangerous illusion of affordability. Behind the headlines of record-breaking model sizes and growing user bases lies a…

从“How much does it really cost to run GPT-4 per query?”看，这个模型发布为什么重要？

The core of the cost crisis lies in the fundamental architecture of modern transformers. The 'brute force' scaling paradigm—pioneered by scaling laws from researchers at Google and OpenAI—posits that model performance im…

围绕“Will AI subscription prices go up in 2025?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。