Uber COO的Token ROI警告:AI盲目扩展时代终结的信号

Hacker News May 2026
来源:Hacker NewsAI efficiency归档:May 2026
Uber首席运营官公开承认,公司在AI Token生成上的巨额投资越来越难以用具体的业务回报来证明。这家物流巨头罕见的自我反思,标志着行业可能从盲目的算力扩展转向对Token ROI的严格关注。

在一份随后在科技界引起广泛反响的内部备忘录中,Uber的COO坦承了一个日益尖锐的矛盾:公司通过大语言模型和预测系统生成AI Token的巨大投入,在订单转化率和路线优化等核心业务指标上,正带来递减的边际回报。这家以优化每一英里每一美分而闻名的公司,如今正将同样的严苛标准应用于AI。COO的言论并非孤立的批评,而是更广泛行业清算的预兆。过去一年,被称为“Token最大化”的主流范式将更大的模型和更高的Token吞吐量与AGI的进步等同起来。然而,经济现实正在追赶:GPU上燃烧的每一个Token都意味着硬件、电力和冷却方面的真金白银支出。

技术深度解析

Uber COO的担忧直击规模定律假说的核心,这一假说一直是现代AI的基石信念。其核心思想由Kaplan等人在2020年推广,并由Hoffmann等人通过Chinchilla规模定律加以完善,认为模型性能会随着计算量、数据集大小和参数数量的增加而可预测地提升。然而,Uber的批评引入了一个新变量:经济边际效用

从工程角度来看,生成单个Token的成本并非固定不变。它取决于模型架构、硬件以及推理服务基础设施。对于像LLaMA-2-70B这样的密集Transformer模型,每个Token的成本主要由每次前向传播中将全部700亿参数加载到GPU寄存器所需的内存带宽和计算量决定。这就是为什么量化(例如使用4位或8位权重)已成为一项关键的优化技术。开源社区在这方面取得了进展:llama.cpp仓库(GitHub上超过70,000颗星)使得在消费级硬件上运行量化后的LLaMA模型成为可能,大幅降低了Token成本。同样,vLLM(超过40,000颗星)使用PagedAttention更高效地管理KV缓存内存,在相同硬件上将吞吐量提高了2-4倍。

但Uber的观点更为深刻。他们不仅仅是在优化推理延迟;他们质疑的是,一个庞大模型生成的Token的*质量*是否值得其相对于更小、更精简模型的成本。这正是模型蒸馏混合专家(MoE)架构发挥作用的地方。蒸馏技术由Geoffrey Hinton开创,涉及训练一个较小的“学生”模型来模仿较大“教师”模型的输出分布。例如,微软的Phi-3模型(小至38亿参数)在许多基准测试中实现了与LLaMA-2-7B相当的性能,而使用的Token数量却少得多。TinyLlama项目(11亿参数)是另一个旨在将LLaMA压缩成高效包的开源努力。

MoE架构,如Mixtral 8x7B,提供了一种不同的权衡:它们每个Token只激活一部分参数,从而减少每个Token的计算量,同时保留较大的总参数数量。这是对Uber所强调的经济压力的直接回应。下表比较了几种代表性模型的Token经济性:

| 模型 | 参数数量 | 每个Token激活参数 | MMLU分数 | 每百万Token预估成本(推理) |
|---|---|---|---|---|
| GPT-4o(估计) | ~2000亿 | ~2000亿 | 88.7 | $5.00 |
| Mixtral 8x7B | 467亿 | ~129亿 | 70.6 | $0.60 |
| LLaMA-3-8B | 80亿 | 80亿 | 68.4 | $0.20 |
| Phi-3-mini (38亿) | 38亿 | 38亿 | 69.0 | $0.10 |
| TinyLlama (11亿) | 11亿 | 11亿 | 48.0 | $0.03 |

数据要点: 从GPT-4o到TinyLlama,每个Token的成本下降了超过100倍,而MMLU分数仅下降了40分。对于许多商业应用——比如Uber的路线优化或客户支持分类——较小的模型可能已经“足够好”,使得大型模型在经济上变得不合理。关键洞察在于,对于大多数实际任务,使用2000亿参数模型相比80亿参数模型所获得的*边际*准确性提升,可能不值得付出25倍的成本增加。

关键参与者与案例研究

Uber并非唯一意识到这一点的公司。几家主要参与者已经在向效率转型,他们的策略为行业提供了路线图。

1. Apple:边缘推理冠军
Apple长期以来一直倡导设备端AI,其最近推出的Apple Intelligence是对高效模型的直接押注。通过在设备上运行一个30亿参数的模型来处理大多数任务,仅在必要时查询更大的云端模型,Apple为用户和自身最小化了Token成本。这种混合架构是Token ROI优化的教科书式案例。该公司的Core ML框架和MLX开源库(超过20,000颗星)专为在Apple Silicon上进行高效推理而设计,其统一内存架构减少了内存瓶颈。

2. 微软:Phi与小模型赌注
微软的Phi-3系列是对“越大越好”教条的直接挑战。通过在高质量合成数据上训练并采用课程学习方法,微软研究院的Phi团队已经证明,一个38亿参数的模型在某些推理基准测试中可以超越70亿参数的模型。这是一项旨在降低Azure企业客户推理成本的战略举措。微软押注AI的未来不是一个单一的巨型模型,而是一系列专业化、高效的模型。

3. Mistral AI:MoE转型
Mistral AI的Mixtral 8x7B在发布时令人震惊,它展示了一个MoE模型能够以一小部分推理成本匹配密集700亿参数模型的性能。该公司随后发布了Mistral Large 2,它也融入了MoE原则。Mistral的方法是为客户提供选择:支付

更多来自 Hacker News

奶油与钴蓝的互联网:AI 如何扼杀视觉多样性越来越多的证据指向一个令人震惊的现象:互联网的视觉身份正在被 AI 抹平。由 Claude Code、GitHub Copilot 及其他大型语言模型生成的网站,正日益采用一种狭隘、统计上“安全”的设计语言。其经典调色板——奶油色(#F5FClickHouse 一年AI编码实验:效率提升30%,却暗藏逻辑陷阱ClickHouse 开发团队进行了一项为期一年的实验,将AI编码代理直接嵌入日常开发流程,将其视为共同开发者而非简单助手。实验结果现已公开,描绘了一幅审慎乐观的图景。积极方面,AI代理显著加速了常规编码任务——生成样板代码、编写单元测试、CPU复兴:智能体AI如何重塑硬件权力格局“AI全靠GPU”的叙事正在瓦解。智能体AI——能够自主规划、调用工具、迭代并实时决策的系统——需要一种根本不同的计算模式。GPU擅长密集矩阵乘法(推理与训练的核心),但在定义智能体行为的串行化、控制密集型工作负载上表现挣扎:多步推理、条件查看来源专题页Hacker News 已收录 3931 篇文章

相关专题

AI efficiency26 篇相关文章

时间归档

May 20262758 篇已发布文章

延伸阅读

26M参数模型Needle颠覆大模型工具调用垄断:手机端跑出6000 tokens/秒一个仅有2600万参数的模型Needle,通过蒸馏Google Gemini的工具调用能力,在智能手机上实现了每秒6000 tokens的处理速度。这彻底打破了AI行业对万亿参数大模型的迷信,证明自主智能体并不需要海量算力。DS4引擎:DeepSeek自研推理架构,重新定义AI效率新标杆DeepSeek悄然部署了专为其v4 Flash模型打造的定制推理引擎DS4,实现了毫秒级延迟和每token能耗降低3至5倍。这一举措标志着战略重心从原始模型性能转向推理效率,为实时智能体应用铺平道路,并重塑AI基础设施格局。Transformer的朴素本质:AI行业“越大越好”的时代正在终结最新分析揭示,Transformer架构天生具备一种趋向简洁的内在机制——其注意力机制会自然过滤冗余信息,生成稀疏而高密度的表征,无需任何事后压缩。这一发现直接挑战了当前“越大越好”的主流范式,暗示整个行业可能正在严重过度配置计算资源。DeepClaude将AI代码代理成本压缩17倍:开发者工具的“拼多多时刻”DeepClaude,一种将DeepSeek V4 Pro的推理能力与Claude Code的智能体循环相结合的新型混合系统,在代码生成领域实现了惊人的17倍成本压缩。这一突破标志着AI代理经济学——而非单纯的原始性能——正成为主要的竞争战

常见问题

这次模型发布“Uber COO's Token ROI Warning Signals End of AI's Blind Scaling Era”的核心内容是什么?

In a candid internal memo that has since reverberated across the tech industry, Uber's COO acknowledged a growing tension: the company's heavy spending on generating AI tokens—thro…

从“How to calculate Token ROI for your AI project”看,这个模型发布为什么重要?

The Uber COO's concerns strike at the heart of the scaling law hypothesis, which has been the foundational belief of modern AI. The core idea, popularized by Kaplan et al. in 2020 and refined by Hoffmann et al. with Chin…

围绕“Best open-source models for low-cost inference in 2025”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。