技术深度解析
价格悖论的核心在于训练与推理经济学之间的根本不对称性。训练是一个固定成本、面向批处理的过程,受益于在配备高带宽内存(HBM)的GPU(如NVIDIA H100和B200)上进行密集矩阵运算。而推理则对延迟敏感,且受限于内存带宽。生成单个Token的成本主要由将模型权重从HBM移动到计算单元所花费的时间决定——这一约束条件并不随模型规模线性扩展。
Token定价的算术
以Llama 3.1-70B这样的700亿参数稠密模型为例。在H100(80GB HBM3,带宽3.35 TB/s)上,生成一个Token需要将所有140GB权重(假设为FP16)从HBM加载到流式多处理器。在峰值带宽下,每个Token大约需要42微秒。按H100实例每小时30美元计算,这相当于每个Token约0.00035美元——即每百万Token 350美元。然而如今,Together AI等提供商对Llama 3.1-70B的收费仅为每百万Token 0.88美元。原始算力成本与市场价格之间存在400倍的差距。
提供商如何弥合差距
目前主要部署了三种关键技术:
1. 推测解码:模型不再逐个生成Token,而是使用一个更小、更快的草稿模型一次性草拟多个Token,然后并行验证。这可将吞吐量提升2-3倍,且不增加延迟。像[speculative-decoding](https://github.com/feifeibear/speculative-decoding)(1.2k星标)和Google的Medusa(3.5k星标)等代码库已展示了实际应用。Together AI使用一种名为“前瞻解码”的变体,在Llama模型上实现了1.5-2倍的加速。
2. 量化与剪枝:将权重从FP16降至INT4甚至INT2,可将内存带宽需求降低4-8倍。[llama.cpp](https://github.com/ggerganov/llama.cpp)项目(72k星标)开创了即时量化技术,而[AutoGPTQ](https://github.com/AutoGPTQ/AutoGPTQ)(4.5k星标)等工具则实现了4比特量化,且困惑度损失极小。Fireworks AI报告称,以INT4精度服务Llama 3.1-70B,在MMLU基准测试上的准确率下降不到1%。
3. 批处理与连续批处理:通过同时处理多个请求,提供商将权重加载成本分摊到众多Token上。像[vLLM](https://github.com/vllm-project/vllm)(45k星标)和[TensorRT-LLM](https://github.com/NVIDIA/TensorRT-LLM)(12k星标)这样的系统实现了连续批处理,相比朴素实现方式,吞吐量提升了10-20倍。
| 技术 | 吞吐量提升 | 成本降低 | 质量影响 |
|---|---|---|---|
| 推测解码 | 1.5-3倍 | 33-67% | 可忽略不计 |
| INT4量化 | 3-4倍 | 75-80% | 准确率下降<1% |
| 连续批处理 | 10-20倍 | 90-95% | 无 |
| 三者结合 | 30-60倍 | 97-99% | 准确率下降约1% |
数据要点: 这些优化手段的综合效果可将每Token的有效成本降低高达99%,使Llama 3.1-70B的理论盈亏平衡价格从每百万Token 350美元降至约3.50-7.00美元。当前市场价每百万Token 0.88美元仍低于这一优化后的底线,证实了补贴动态的存在。
MoE的优势
混合专家(MoE)架构,如Mixtral 8x22B和DeepSeek-V2,从根本上改变了成本方程。通过每个Token仅激活一部分参数,MoE模型降低了有效内存带宽需求。例如,DeepSeek-V2每个Token仅激活其2360亿总参数中的210亿,与稠密的2360亿参数模型相比,推理成本降低了10倍。这就是DeepSeek能够以每百万输入Token 0.14美元、每百万输出Token 0.28美元的价格提供API服务的原因——远低于稠密模型竞争对手。
关键参与者与案例研究
超大规模云服务商:AWS、Google Cloud、Microsoft Azure
这些玩家陷入了一个战略陷阱。他们必须投入数十亿美元建设GPU集群以取悦云客户,但又不能将推理价格降至AI原生初创公司的水平,否则会蚕食自己高利润的GPU租赁业务。AWS对p5.48xlarge实例(8块H100)的收费为每小时40.96美元,而Google Cloud TPU v5p的定价未公开,但估计在每小时35美元以上。它们的推理API(Amazon Bedrock、Vertex AI、Azure OpenAI)仍然比独立提供商贵5-10倍。
AI原生挑战者:Together AI、Fireworks AI、Groq
这些公司没有传统云业务需要保护,因此可以激进定价。Together AI在2025年初以33亿美元估值融资3.05亿美元,正在烧钱换取市场份额。Fireworks AI已融资超过1亿美元,并以每百万Token 0.88美元的价格提供Llama 3.1-70B服务。Groq凭借其定制LPU架构,声称在特定工作负载下成本比基于GPU的推理低10倍。
| 提供商 | Llama 3.1-70B价格(美元/百万Token) | 底层硬件 | 估计盈亏平衡点 |
|---|---|---|---|
| Together AI | 0.88 | H100 + vLLM | 3-5美元 |
| Fireworks AI | 0.88 | H100 + TensorRT-LLM | — |