成本危机:AI烧钱模式即将崩塌

Hacker News June 2026
来源:Hacker News归档:June 2026
人工智能产业正建立在一个脆弱的经济地基之上。我们的调查揭示,运行大型语言模型的真实成本远高于当前定价,一场残酷的清算即将到来,重塑整个生态系统。

部署越来越大的语言模型的竞赛,制造了一种危险的可负担性幻觉。在创纪录的模型规模和不断增长的用户群的头条新闻背后,隐藏着一个严酷的现实:推理成本正在失控地螺旋上升。由风险投资补贴和云积分支撑的当前定价,掩盖了根本性的不可持续性。我们的分析表明,每一代新模型都需要指数级增长的计算资源,却只换来边际性能提升,在运营成本和收入潜力之间形成了日益扩大的鸿沟。许多初创公司实际上是在用资本购买用户,其单位经济模型在任何成熟市场都难以为继。“免费套餐”的军备竞赛进一步扭曲了真实服务成本,助长了虚假繁荣的泡沫。

技术深度剖析

成本危机的核心在于现代Transformer的基本架构。由Google和OpenAI研究人员率先提出的“蛮力”扩展范式认为,模型性能会随着参数、数据和计算量的增加而可预测地提升。虽然这在基准测试分数上经验证为真,但这种方法隐藏着一个成本:由于自注意力机制,推理复杂度随序列长度呈二次方增长,而每次前向传播的复杂度则随参数数量线性增长。

让我们算一笔账。对于一个像GPT-3这样拥有1750亿参数的模型,一次短提示的前向传播需要大约3500亿次浮点运算(FLOPs)。对于传闻中GPT-4的继任者——一个1万亿参数的模型,这个数字跃升至2万亿次FLOPs。每个token的成本与模型大小直接成正比。业界曾试图通过量化(将精度从FP32降至FP16或INT8)、剪枝(移除冗余权重)和知识蒸馏(训练较小的“学生”模型模仿较大的模型)等技术来缓解这一问题。然而,这些方法只能提供线性或次线性的改进,而模型大小却在指数级增长。

一种更有前景但仍处于萌芽阶段的方法是稀疏激活。Mixture-of-Experts(MoE)架构,如Mixtral 8x7B和Google的Gemini所使用的,每个token只激活一部分参数。这解耦了模型容量与每个token的计算成本。例如,Mixtral 8x7B总共有467亿参数,但每次前向传播仅使用约129亿参数,其性能可与稠密的700亿参数模型相媲美,而成本却低得多。开源社区已经接受了这一点:GitHub仓库`mistralai/mistral-src`已获得超过8500颗星,并提供了MoE推理的参考实现。然而,MoE也引入了新的挑战:专家间的负载均衡、更高的内存带宽需求以及复杂的路由逻辑。

动态计算分配是另一个前沿领域。系统不是对每个查询都使用相同的模型,而是可以将简单查询路由到更小、更便宜的模型,只将复杂查询升级到更大的模型。这种“级联”或“推测解码”方法正在被初创公司和研究实验室探索。GitHub仓库`google-research/t5x`包含了条件计算的实现,但生产就绪的系统仍然很少。

基准性能与推理成本

| 模型 | 参数(活跃) | MMLU分数 | 每百万token成本(输入) | 延迟(首token) |
|---|---|---|---|---|
| GPT-4(稠密,估计) | 1.7T (1.7T) | 86.4 | $30.00 | ~500ms |
| Claude 3 Opus(稠密,估计) | ~2T (2T) | 86.8 | $15.00 | ~400ms |
| Mixtral 8x22B (MoE) | 141B (39B) | 81.2 | $2.70 | ~200ms |
| Llama 3 70B(稠密) | 70B (70B) | 82.0 | $1.00 | ~150ms |
| GPT-3.5 Turbo(稠密,估计) | 175B (175B) | 70.0 | $0.50 | ~100ms |

数据要点: 该表格揭示了一个严峻的权衡。像GPT-4和Claude 3 Opus这样的前沿模型提供了顶级分数,但成本是较小模型的10到30倍。Mixtral 8x22B提供了一个引人注目的中间地带,以GPT-4 9%的成本实现了其94%的MMLU分数。这表明市场将分化为两极:前沿智能的高端定价,以及“足够好”模型的商品化定价。

关键参与者与案例研究

成本危机在整个生态系统中以不同的方式上演。OpenAI有微软数十亿美元的支持,能够负担其每月20美元的ChatGPT Plus订阅补贴,而该订阅的服务成本可能远高于此。该公司报告的年化收入为34亿美元,令人印象深刻,但推理成本估计消耗了其中的40-60%。OpenAI的策略是通过硬件优化(定制芯片)和规模效率来降低成本,但盈利之路仍不明朗。

Anthropic及其Claude模型采取了不同的方法。它提供了更昂贵的API(Claude 3 Opus每百万输入token 15美元),并避免了广泛的免费套餐。这表明了一种更现实的定价模式,但它限制了用户获取。该公司从Amazon和其他公司获得的50亿美元融资轮表明,即使定价更高,资本密集度也极高。

Google凭借Gemini,拥有自己的TPU硬件和庞大的数据中心基础设施优势。这种垂直整合使其具有成本优势,但它也面临着相同的基本扩展定律。Google决定以每月19.99美元(通过Google One)提供Gemini Ultra,是在押注用户会为高级AI付费,但收回开发成本所需的用户量是天文数字。

初创公司定价与估计成本

| 公司 | 产品 | 每次查询价格(估计) | 每次查询估计成本 | 利润率 |
|---|---|---|---|---|
| OpenAI | ChatGPT Plus (GPT-4) | $0.0007(基于每天30次查询) | $0.002-0.005 | -185% 至 -614% |
| Anthropic | Claude Pro (Opus) | $0.001 |

更多来自 Hacker News

AI计费革命:按能量付费取代Token计费,成本直降83%AI行业正在经历推理成本计量与计费方式的范式转变。多年来,按Token计费一直是主导模式,用户为模型输出的每个单词或子词付费。这种方法虽然简单,却造成了根本性的错配:一个简单的单字答案与复杂的多步推理链,若输出长度相近,成本竟完全相同。如今LLM裁判需要审计:一款轻量级工具曝光AI评估的致命盲区一位开发者近日发布了一款开源审计工具,为日益流行的“LLM-as-judge”评估范式带来了透明度。该工具通过拦截评分流程,将其拆解为三个独立步骤:提取被评估的声明、识别裁判LLM用于支持其决策的证据、记录最终裁决。任何缺乏充分证据支持的裁Notion关停邮件客户端:AI代理已全面接管你的收件箱Notion决定停用其继承Skiff加密与协作基因的邮件应用,标志着生产力软件领域的深刻变革。该应用最初旨在优化人类的邮件读写体验,但内部指标显示,用户已基本放弃手动操作,转而依赖AI代理进行过滤、优先级排序、草拟和发送邮件。邮件客户端实际查看来源专题页Hacker News 已收录 5248 篇文章

时间归档

June 20262651 篇已发布文章

延伸阅读

OpenAI年亏385亿美元:AGI军备竞赛背后的残酷经济学一份泄露的内部财务数据显示,OpenAI每年烧掉385亿美元,仅算力成本就吞噬了超过60%的收入。这一前所未有的烧钱速度,揭示了AGI竞赛中残酷的经济逻辑:每一代模型都需要指数级增长的算力资源,迫使公司押注推理效率突破,以化解资金链危机。ZAYA1-8B:仅用7.6亿活跃参数,数学推理比肩DeepSeek-R1的8B MoE模型ZAYA1-8B,一款拥有80亿总参数的混合专家(MoE)模型,每次推理仅激活7.6亿参数,却在数学推理性能上与DeepSeek-R1旗鼓相当。这一突破挑战了“越大越好”的传统叙事,指向一个由激活效率而非原始参数数量定义模型能力的未来。美国政府要求GPT-5.6实行个人审批制:AI身份政治的黎明美国政府正计划对下一代GPT-5.6模型实施前所未有的个人审批制度,每位用户需单独获得政府授权方可使用。这标志着监管重心从AI能力转向用户身份,可能催生分裂的AI生态系统,并加速非美国AI系统的发展。记录类型推断:让代码更智能、开发者更高效的静默革命记录类型推断正在自动化定义数据结构的繁琐任务,大幅削减样板代码与错误。AINews 深入探究这场隐藏的革命如何重塑开发者工作流,并加速向智能、自优化编程环境的转变。

常见问题

这次模型发布“The Cost Crisis: Why AI's Burning Money Model Is About to Collapse”的核心内容是什么?

The race to deploy ever-larger language models has created a dangerous illusion of affordability. Behind the headlines of record-breaking model sizes and growing user bases lies a…

从“How much does it really cost to run GPT-4 per query?”看,这个模型发布为什么重要?

The core of the cost crisis lies in the fundamental architecture of modern transformers. The 'brute force' scaling paradigm—pioneered by scaling laws from researchers at Google and OpenAI—posits that model performance im…

围绕“Will AI subscription prices go up in 2025?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。