Uber AI预算大爆炸:大模型规模化部署的隐性成本真相

Hacker News May 2026
来源:Hacker News归档:May 2026
Uber在短短三个月内烧光了2025年全年的AI预算,这一惊人超支的元凶是代码生成工具和AI客服代理疯狂消耗的Token。这绝非预算失误——而是企业AI部署进入昂贵新阶段的第一个重大信号:推理成本已成为瓶颈。

Uber首席运营官证实,基于Token的大语言模型推理成本完全超出了所有预测模型,迫使公司立即重新评估AI投资策略。两大高流量部署是罪魁祸首:数千名工程师使用的AI编程助手Claude Code,以及每天处理数百万次交互的LLM客服系统。两者合计消耗Token的速度是预期的4倍,将原本设计使用12个月的预算在短短90天内烧光。这并非孤立事件。整个行业的企业都在发现,虽然模型能力飙升,但大规模运行这些模型的成本仍然顽固地居高不下——而且在许多情况下,完全不可预测。'能不能建'的时代已经过去,'能不能养得起'的时代已经到来。

技术深度解析

Uber的成本爆炸根植于基于Transformer的LLM的基本经济学。与传统软件边际成本趋近于零不同,每次调用Claude Opus或GPT-4o这样的前沿模型都会产生按Token计费的费用,且该费用与输出长度线性相关。核心问题在于:推理成本在规划阶段无法预测,因为Token消耗取决于模型的涌现行为——更长的推理链、多轮对话以及迭代式代码生成。

Uber内部数据显示,直接集成到其CI/CD流水线中的Claude Code,每次代码审查会话平均生成12,000个Token——远高于预算模型中使用的3,000个Token估算值。与此同时,LLM客服系统每次交互平均生成800个Token的冗长回复,而目标是200个Token。这种差异并非Bug,而是现代LLM的特性。Claude 3.5 Sonnet和GPT-4o等模型针对有用性和完整性进行了优化,这自然会导致更长的输出。

Token乘数效应

一个关键的技术洞察:Token消耗随模型能力呈非线性增长。随着模型变得更强,它们被要求解决更难的问题,这需要更长的推理链。这形成了一个反馈循环:

- 输入Token(提示词) 增加,因为工程师添加了更多上下文、系统指令和少样本示例。
- 输出Token(补全内容) 增加,因为模型生成了逐步推理、代码解释和多个备选方案。
- 思维链提示,现在已成为生产环境的标准做法,可能将输出长度放大3-5倍。

基准数据:推理成本 vs. 模型质量

| 模型 | MMLU得分 | 每任务输出Token(平均) | 每百万输出Token成本 | 每任务有效成本 |
|---|---|---|---|---|
| GPT-4o | 88.7 | 450 | $15.00 | $0.0068 |
| Claude 3.5 Sonnet | 88.3 | 520 | $3.00 | $0.0016 |
| Claude Opus | 89.1 | 680 | $15.00 | $0.0102 |
| Gemini 1.5 Pro | 85.9 | 390 | $3.50 | $0.0014 |
| Llama 3.1 405B(自托管) | 87.3 | 410 | $0.80(估算) | $0.0003 |

数据要点: 能力最强的模型(Claude Opus、GPT-4o)产生最长的输出,且每任务成本最高。但真正的惊喜是,Claude 3.5 Sonnet尽管每Token更便宜,但在相同任务上实际产生的输出比GPT-4o更长,从而缩小了成本差距。像Llama 3.1 405B这样的自托管开源模型提供了显著更低的每任务成本,但需要大量的前期基础设施投资。

GitHub仓库因素

对于寻求控制成本的企业,两个开源项目已获得关注:

- vLLM(github.com/vllm-project/vllm,45k+星标):一个高吞吐量服务引擎,使用PagedAttention减少内存浪费,相比朴素部署实现2-4倍的吞吐量提升。据报道,Uber曾测试vLLM用于内部模型服务,但发现它与他们的多模型路由层不兼容。
- SGLang(github.com/sgl-project/sglang,8k+星标):一种结构化生成语言,允许对输出Token预算进行细粒度控制。SGLang可以强制每个响应的最大Token限制,这本来可以防止Uber的客服系统超出其200个Token的目标。

编辑点评: Uber问题的技术解决方案不是更好的模型——而是更好的成本治理。企业必须在应用层实施Token预算管理,使用SGLang或自定义中间件等工具来限制输出长度、强制提示压缩,并将简单查询路由到更便宜的模型。

关键参与者与案例研究

Uber的预算危机凸显了主要AI基础设施提供商的不同策略。关键参与者不仅仅是模型制造商,还包括部署平台和企业本身。

模型提供商

| 公司 | 旗舰模型 | 定价模式 | 企业采用度 | 成本可预测性 |
|---|---|---|---|---|
| Anthropic | Claude Opus, Sonnet | 按Token计费(输入+输出) | 高(编程、分析) | 低(输出长度可变) |
| OpenAI | GPT-4o, GPT-4o mini | 按Token计费 | 非常高(通用) | 低(依赖提示词) |
| Google DeepMind | Gemini 1.5 Pro | 按Token计费 + 上下文窗口 | 中等 | 中等(上下文缓存有帮助) |
| Meta | Llama 3.1 405B | 开源(自托管) | 增长中(成本敏感) | 高(固定基础设施成本) |

数据要点: Anthropic和OpenAI主导高端市场,但成本可预测性最差。Meta的开源模型提供了最佳成本控制,但需要工程人才来部署和维护。Uber的错误在于对所有任务都使用最昂贵的模型,包括那些本可以由微调后的Llama模型处理的简单客户查询。

案例研究:客服系统大爆炸

Uber基于LLM的客服系统旨在处理行程纠纷、支付问题和司机

更多来自 Hacker News

AI的真正天花板不是算力,而是人类的判断力多年来,AI领域的讨论始终聚焦于一个问题:“机器能变得多聪明?”但一个更根本的问题已经浮现——工具已经超越了用户。从企业级LLM部署到消费级视频生成平台,限制因素不再是模型能力,而是人类对模型输出施加的判断质量。一个顶级推理模型,如果输入的Lago开源SDK终结AI计费中间件:一场透明化革命开源计费平台Lago推出了全新SDK,使开发者无需依赖第三方中间件,即可在令牌级别追踪和计费AI使用量。该SDK提供实时用量监控、灵活定价层级,并与主流LLM提供商直接集成。此举意义重大,因为AI计费历来是个黑箱:开发者要么估算令牌消耗,要Keyblind:让AI代理“看不见”密钥的密码学保险库自主AI代理的爆发——从Claude Code这样的编码助手到OpenAI Operator这样的浏览器自动化工具——制造了一个危险的安全悖论。代理需要访问API密钥、数据库令牌和云服务凭证来执行复杂任务,但每一次凭证调用都可能成为攻击向量查看来源专题页Hacker News 已收录 4017 篇文章

时间归档

May 20262933 篇已发布文章

延伸阅读

Uber 340亿美元AI豪赌撞上预算墙:生成式AI“空白支票”时代终结Uber 对人工智能高达340亿美元的承诺,正与严峻的财务现实迎头相撞。公司CTO已发出明确的预算限制信号,揭示了AI雄心与可持续经济模式之间的关键矛盾。这一刻,标志着整个科技行业一个决定性的转折点。智能体成本革命:为何“弱模型优先”正在重塑企业AI经济学一场关于AI智能体架构的根本性反思正在进行。企业不再盲目追求单一巨型模型的原始能力,而是转向构建智能且成本优化的系统。最新研究表明,策略性地将更小、更廉价的模型部署为一线处理器,仅将重型模型保留给复杂子任务,能在保持能力的同时大幅降低运营成Opus模型引发AI成本革命,重塑企业经济模型A seismic shift is underway in enterprise AI adoption as the Opus model architecture delivers dramatic cost reductions. Uber四个月烧掉1.8亿美元:Claude Code引爆企业AI成本危机Uber在短短四个月内烧光了整个2026年度的AI预算,在Anthropic的Claude Code上花费超过1.8亿美元。这家出行巨头试图用AI编程代理提升工程效率,却反噬成一场成本危机,暴露了企业级AI部署背后隐藏的经济学真相。

常见问题

这次公司发布“Uber's AI Budget Blowout: The Hidden Cost of Scaling LLMs in Production”主要讲了什么?

Uber's COO confirmed that token-based inference costs from large language models (LLMs) completely exceeded all forecasting models, forcing an immediate re-evaluation of the compan…

从“How Uber's AI budget blowout affects ride pricing”看,这家公司的这次发布为什么值得关注?

Uber's cost explosion is rooted in the fundamental economics of transformer-based LLMs. Unlike traditional software where marginal cost approaches zero, each API call to a frontier model like Claude Opus or GPT-4o incurs…

围绕“Claude Code vs GitHub Copilot cost comparison for enterprises”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。