技术深度剖析
成本危机的核心在于现代Transformer的基本架构。由Google和OpenAI研究人员率先提出的“蛮力”扩展范式认为,模型性能会随着参数、数据和计算量的增加而可预测地提升。虽然这在基准测试分数上经验证为真,但这种方法隐藏着一个成本:由于自注意力机制,推理复杂度随序列长度呈二次方增长,而每次前向传播的复杂度则随参数数量线性增长。
让我们算一笔账。对于一个像GPT-3这样拥有1750亿参数的模型,一次短提示的前向传播需要大约3500亿次浮点运算(FLOPs)。对于传闻中GPT-4的继任者——一个1万亿参数的模型,这个数字跃升至2万亿次FLOPs。每个token的成本与模型大小直接成正比。业界曾试图通过量化(将精度从FP32降至FP16或INT8)、剪枝(移除冗余权重)和知识蒸馏(训练较小的“学生”模型模仿较大的模型)等技术来缓解这一问题。然而,这些方法只能提供线性或次线性的改进,而模型大小却在指数级增长。
一种更有前景但仍处于萌芽阶段的方法是稀疏激活。Mixture-of-Experts(MoE)架构,如Mixtral 8x7B和Google的Gemini所使用的,每个token只激活一部分参数。这解耦了模型容量与每个token的计算成本。例如,Mixtral 8x7B总共有467亿参数,但每次前向传播仅使用约129亿参数,其性能可与稠密的700亿参数模型相媲美,而成本却低得多。开源社区已经接受了这一点:GitHub仓库`mistralai/mistral-src`已获得超过8500颗星,并提供了MoE推理的参考实现。然而,MoE也引入了新的挑战:专家间的负载均衡、更高的内存带宽需求以及复杂的路由逻辑。
动态计算分配是另一个前沿领域。系统不是对每个查询都使用相同的模型,而是可以将简单查询路由到更小、更便宜的模型,只将复杂查询升级到更大的模型。这种“级联”或“推测解码”方法正在被初创公司和研究实验室探索。GitHub仓库`google-research/t5x`包含了条件计算的实现,但生产就绪的系统仍然很少。
基准性能与推理成本
| 模型 | 参数(活跃) | MMLU分数 | 每百万token成本(输入) | 延迟(首token) |
|---|---|---|---|---|
| GPT-4(稠密,估计) | 1.7T (1.7T) | 86.4 | $30.00 | ~500ms |
| Claude 3 Opus(稠密,估计) | ~2T (2T) | 86.8 | $15.00 | ~400ms |
| Mixtral 8x22B (MoE) | 141B (39B) | 81.2 | $2.70 | ~200ms |
| Llama 3 70B(稠密) | 70B (70B) | 82.0 | $1.00 | ~150ms |
| GPT-3.5 Turbo(稠密,估计) | 175B (175B) | 70.0 | $0.50 | ~100ms |
数据要点: 该表格揭示了一个严峻的权衡。像GPT-4和Claude 3 Opus这样的前沿模型提供了顶级分数,但成本是较小模型的10到30倍。Mixtral 8x22B提供了一个引人注目的中间地带,以GPT-4 9%的成本实现了其94%的MMLU分数。这表明市场将分化为两极:前沿智能的高端定价,以及“足够好”模型的商品化定价。
关键参与者与案例研究
成本危机在整个生态系统中以不同的方式上演。OpenAI有微软数十亿美元的支持,能够负担其每月20美元的ChatGPT Plus订阅补贴,而该订阅的服务成本可能远高于此。该公司报告的年化收入为34亿美元,令人印象深刻,但推理成本估计消耗了其中的40-60%。OpenAI的策略是通过硬件优化(定制芯片)和规模效率来降低成本,但盈利之路仍不明朗。
Anthropic及其Claude模型采取了不同的方法。它提供了更昂贵的API(Claude 3 Opus每百万输入token 15美元),并避免了广泛的免费套餐。这表明了一种更现实的定价模式,但它限制了用户获取。该公司从Amazon和其他公司获得的50亿美元融资轮表明,即使定价更高,资本密集度也极高。
Google凭借Gemini,拥有自己的TPU硬件和庞大的数据中心基础设施优势。这种垂直整合使其具有成本优势,但它也面临着相同的基本扩展定律。Google决定以每月19.99美元(通过Google One)提供Gemini Ultra,是在押注用户会为高级AI付费,但收回开发成本所需的用户量是天文数字。
初创公司定价与估计成本
| 公司 | 产品 | 每次查询价格(估计) | 每次查询估计成本 | 利润率 |
|---|---|---|---|---|
| OpenAI | ChatGPT Plus (GPT-4) | $0.0007(基于每天30次查询) | $0.002-0.005 | -185% 至 -614% |
| Anthropic | Claude Pro (Opus) | $0.001 |