AI云计算的巨大悖论：GPU稀缺与Token价格战并存

Q: 围绕“How do AI cloud providers make money on cheap inference”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI云计算市场正经历一场深刻的价格悖论。一方面，训练前沿模型对GPU集群的贪婪需求将基础设施成本推至前所未有的高度；另一方面，推理输出的每Token价格在过去18个月内暴跌超过90%，部分提供商甚至以几乎仅够支付电费的价格提供API访问。这一矛盾并非市场失灵，而是一种精心策划的战略：云服务商正利用为基础设施建设筹集的资本来补贴用户获取，实质上是将推理业务作为“亏本引流”的手段。其结果是形成了一个脆弱的生态系统——没有人能仅靠算力赚钱。Together AI、Fireworks AI和Groq等公司已将价格降至每百万Token几分钱的水平。

技术深度解析

价格悖论的核心在于训练与推理经济学之间的根本不对称性。训练是一个固定成本、面向批处理的过程，受益于在配备高带宽内存（HBM）的GPU（如NVIDIA H100和B200）上进行密集矩阵运算。而推理则对延迟敏感，且受限于内存带宽。生成单个Token的成本主要由将模型权重从HBM移动到计算单元所花费的时间决定——这一约束条件并不随模型规模线性扩展。

Token定价的算术

以Llama 3.1-70B这样的700亿参数稠密模型为例。在H100（80GB HBM3，带宽3.35 TB/s）上，生成一个Token需要将所有140GB权重（假设为FP16）从HBM加载到流式多处理器。在峰值带宽下，每个Token大约需要42微秒。按H100实例每小时30美元计算，这相当于每个Token约0.00035美元——即每百万Token 350美元。然而如今，Together AI等提供商对Llama 3.1-70B的收费仅为每百万Token 0.88美元。原始算力成本与市场价格之间存在400倍的差距。

提供商如何弥合差距

目前主要部署了三种关键技术：

1. 推测解码：模型不再逐个生成Token，而是使用一个更小、更快的草稿模型一次性草拟多个Token，然后并行验证。这可将吞吐量提升2-3倍，且不增加延迟。像[speculative-decoding](https://github.com/feifeibear/speculative-decoding)（1.2k星标）和Google的Medusa（3.5k星标）等代码库已展示了实际应用。Together AI使用一种名为“前瞻解码”的变体，在Llama模型上实现了1.5-2倍的加速。

2. 量化与剪枝：将权重从FP16降至INT4甚至INT2，可将内存带宽需求降低4-8倍。[llama.cpp](https://github.com/ggerganov/llama.cpp)项目（72k星标）开创了即时量化技术，而[AutoGPTQ](https://github.com/AutoGPTQ/AutoGPTQ)（4.5k星标）等工具则实现了4比特量化，且困惑度损失极小。Fireworks AI报告称，以INT4精度服务Llama 3.1-70B，在MMLU基准测试上的准确率下降不到1%。

3. 批处理与连续批处理：通过同时处理多个请求，提供商将权重加载成本分摊到众多Token上。像[vLLM](https://github.com/vllm-project/vllm)（45k星标）和[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM)（12k星标）这样的系统实现了连续批处理，相比朴素实现方式，吞吐量提升了10-20倍。

| 技术 | 吞吐量提升 | 成本降低 | 质量影响 |
|---|---|---|---|
| 推测解码 | 1.5-3倍 | 33-67% | 可忽略不计 |
| INT4量化 | 3-4倍 | 75-80% | 准确率下降<1% |
| 连续批处理 | 10-20倍 | 90-95% | 无 |
| 三者结合 | 30-60倍 | 97-99% | 准确率下降约1% |

数据要点： 这些优化手段的综合效果可将每Token的有效成本降低高达99%，使Llama 3.1-70B的理论盈亏平衡价格从每百万Token 350美元降至约3.50-7.00美元。当前市场价每百万Token 0.88美元仍低于这一优化后的底线，证实了补贴动态的存在。

MoE的优势

混合专家（MoE）架构，如Mixtral 8x22B和DeepSeek-V2，从根本上改变了成本方程。通过每个Token仅激活一部分参数，MoE模型降低了有效内存带宽需求。例如，DeepSeek-V2每个Token仅激活其2360亿总参数中的210亿，与稠密的2360亿参数模型相比，推理成本降低了10倍。这就是DeepSeek能够以每百万输入Token 0.14美元、每百万输出Token 0.28美元的价格提供API服务的原因——远低于稠密模型竞争对手。

关键参与者与案例研究

超大规模云服务商：AWS、Google Cloud、Microsoft Azure

这些玩家陷入了一个战略陷阱。他们必须投入数十亿美元建设GPU集群以取悦云客户，但又不能将推理价格降至AI原生初创公司的水平，否则会蚕食自己高利润的GPU租赁业务。AWS对p5.48xlarge实例（8块H100）的收费为每小时40.96美元，而Google Cloud TPU v5p的定价未公开，但估计在每小时35美元以上。它们的推理API（Amazon Bedrock、Vertex AI、Azure OpenAI）仍然比独立提供商贵5-10倍。

AI原生挑战者：Together AI、Fireworks AI、Groq

这些公司没有传统云业务需要保护，因此可以激进定价。Together AI在2025年初以33亿美元估值融资3.05亿美元，正在烧钱换取市场份额。Fireworks AI已融资超过1亿美元，并以每百万Token 0.88美元的价格提供Llama 3.1-70B服务。Groq凭借其定制LPU架构，声称在特定工作负载下成本比基于GPU的推理低10倍。

| 提供商 | Llama 3.1-70B价格（美元/百万Token） | 底层硬件 | 估计盈亏平衡点 |
|---|---|---|---|
| Together AI | 0.88 | H100 + vLLM | 3-5美元 |
| Fireworks AI | 0.88 | H100 + TensorRT-LLM | — |

时间归档

延伸阅读

常见问题

这次模型发布“The Great AI Cloud Paradox: GPU Scarcity Meets Token Fire Sale”的核心内容是什么？

The AI cloud computing market is experiencing a profound pricing paradox. On one side, the insatiable demand for GPU clusters to train frontier models has driven infrastructure cos…

从“Why are AI token prices dropping while GPU costs rise”看，这个模型发布为什么重要？

The core of the pricing paradox lies in the fundamental asymmetry between training and inference economics. Training is a fixed-cost, batch-oriented process that benefits from dense matrix operations on high-bandwidth me…

围绕“How do AI cloud providers make money on cheap inference”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。