Uber AI预算大爆炸：大模型规模化部署的隐性成本真相

2026年5月27日 07:34 AINews Hacker News May 2026

Uber在短短三个月内烧光了2025年全年的AI预算，这一惊人超支的元凶是代码生成工具和AI客服代理疯狂消耗的Token。这绝非预算失误——而是企业AI部署进入昂贵新阶段的第一个重大信号：推理成本已成为瓶颈。

Uber首席运营官证实，基于Token的大语言模型推理成本完全超出了所有预测模型，迫使公司立即重新评估AI投资策略。两大高流量部署是罪魁祸首：数千名工程师使用的AI编程助手Claude Code，以及每天处理数百万次交互的LLM客服系统。两者合计消耗Token的速度是预期的4倍，将原本设计使用12个月的预算在短短90天内烧光。这并非孤立事件。整个行业的企业都在发现，虽然模型能力飙升，但大规模运行这些模型的成本仍然顽固地居高不下——而且在许多情况下，完全不可预测。'能不能建'的时代已经过去，'能不能养得起'的时代已经到来。

技术深度解析

Uber的成本爆炸根植于基于Transformer的LLM的基本经济学。与传统软件边际成本趋近于零不同，每次调用Claude Opus或GPT-4o这样的前沿模型都会产生按Token计费的费用，且该费用与输出长度线性相关。核心问题在于：推理成本在规划阶段无法预测，因为Token消耗取决于模型的涌现行为——更长的推理链、多轮对话以及迭代式代码生成。

Uber内部数据显示，直接集成到其CI/CD流水线中的Claude Code，每次代码审查会话平均生成12,000个Token——远高于预算模型中使用的3,000个Token估算值。与此同时，LLM客服系统每次交互平均生成800个Token的冗长回复，而目标是200个Token。这种差异并非Bug，而是现代LLM的特性。Claude 3.5 Sonnet和GPT-4o等模型针对有用性和完整性进行了优化，这自然会导致更长的输出。

Token乘数效应

一个关键的技术洞察：Token消耗随模型能力呈非线性增长。随着模型变得更强，它们被要求解决更难的问题，这需要更长的推理链。这形成了一个反馈循环：

- 输入Token（提示词） 增加，因为工程师添加了更多上下文、系统指令和少样本示例。
- 输出Token（补全内容） 增加，因为模型生成了逐步推理、代码解释和多个备选方案。
- 思维链提示，现在已成为生产环境的标准做法，可能将输出长度放大3-5倍。

基准数据：推理成本 vs. 模型质量

| 模型 | MMLU得分 | 每任务输出Token（平均） | 每百万输出Token成本 | 每任务有效成本 |
|---|---|---|---|---|
| GPT-4o | 88.7 | 450 | $15.00 | $0.0068 |
| Claude 3.5 Sonnet | 88.3 | 520 | $3.00 | $0.0016 |
| Claude Opus | 89.1 | 680 | $15.00 | $0.0102 |
| Gemini 1.5 Pro | 85.9 | 390 | $3.50 | $0.0014 |
| Llama 3.1 405B（自托管） | 87.3 | 410 | $0.80（估算） | $0.0003 |

数据要点： 能力最强的模型（Claude Opus、GPT-4o）产生最长的输出，且每任务成本最高。但真正的惊喜是，Claude 3.5 Sonnet尽管每Token更便宜，但在相同任务上实际产生的输出比GPT-4o更长，从而缩小了成本差距。像Llama 3.1 405B这样的自托管开源模型提供了显著更低的每任务成本，但需要大量的前期基础设施投资。

GitHub仓库因素

对于寻求控制成本的企业，两个开源项目已获得关注：

- vLLM（github.com/vllm-project/vllm，45k+星标）：一个高吞吐量服务引擎，使用PagedAttention减少内存浪费，相比朴素部署实现2-4倍的吞吐量提升。据报道，Uber曾测试vLLM用于内部模型服务，但发现它与他们的多模型路由层不兼容。
- SGLang（github.com/sgl-project/sglang，8k+星标）：一种结构化生成语言，允许对输出Token预算进行细粒度控制。SGLang可以强制每个响应的最大Token限制，这本来可以防止Uber的客服系统超出其200个Token的目标。

编辑点评： Uber问题的技术解决方案不是更好的模型——而是更好的成本治理。企业必须在应用层实施Token预算管理，使用SGLang或自定义中间件等工具来限制输出长度、强制提示压缩，并将简单查询路由到更便宜的模型。

关键参与者与案例研究

Uber的预算危机凸显了主要AI基础设施提供商的不同策略。关键参与者不仅仅是模型制造商，还包括部署平台和企业本身。

模型提供商

| 公司 | 旗舰模型 | 定价模式 | 企业采用度 | 成本可预测性 |
|---|---|---|---|---|
| Anthropic | Claude Opus, Sonnet | 按Token计费（输入+输出） | 高（编程、分析） | 低（输出长度可变） |
| OpenAI | GPT-4o, GPT-4o mini | 按Token计费 | 非常高（通用） | 低（依赖提示词） |
| Google DeepMind | Gemini 1.5 Pro | 按Token计费 + 上下文窗口 | 中等 | 中等（上下文缓存有帮助） |
| Meta | Llama 3.1 405B | 开源（自托管） | 增长中（成本敏感） | 高（固定基础设施成本） |

数据要点： Anthropic和OpenAI主导高端市场，但成本可预测性最差。Meta的开源模型提供了最佳成本控制，但需要工程人才来部署和维护。Uber的错误在于对所有任务都使用最昂贵的模型，包括那些本可以由微调后的Llama模型处理的简单客户查询。

案例研究：客服系统大爆炸

Uber基于LLM的客服系统旨在处理行程纠纷、支付问题和司机

常见问题

这次公司发布“Uber's AI Budget Blowout: The Hidden Cost of Scaling LLMs in Production”主要讲了什么？

Uber's COO confirmed that token-based inference costs from large language models (LLMs) completely exceeded all forecasting models, forcing an immediate re-evaluation of the compan…

从“How Uber's AI budget blowout affects ride pricing”看，这家公司的这次发布为什么值得关注？

Uber's cost explosion is rooted in the fundamental economics of transformer-based LLMs. Unlike traditional software where marginal cost approaches zero, each API call to a frontier model like Claude Opus or GPT-4o incurs…

围绕“Claude Code vs GitHub Copilot cost comparison for enterprises”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。