技术深度解析
向Token中心经济学的转变源于一个基本的架构现实:推理是内存受限的,而非计算受限。在训练期间,大批量数据涌入GPU,使计算单元饱和。在推理期间,尤其是对于交互式应用,批量大小很小(通常为1),瓶颈变成了内存带宽——模型权重从HBM移动到计算核心的速度。这就是为什么英伟达的H100和B100 GPU强调HBM3e内存,带宽超过3 TB/s。
Token成本可以分解为:
Token成本 = (硬件成本 + 能耗成本 + 服务开销) / 生成的Token数
每个项都受到特定工程选择的影响:
- 硬件成本:芯片尺寸、内存容量和封装(例如,英伟达用于多GPU通信的NVLink)。B200 GPU采用定制的4NP工艺,集成了两个芯片,配备192 GB HBM3e,使更大的模型能够适配更少的GPU,从而减少GPU间通信开销。
- 能耗成本:每个Token的功耗。英伟达的FP8张量核心相比FP16将每次操作的能量消耗降低了2倍,同时保持了模型精度。对于70B参数的模型,FP8推理可以将能耗成本降低近40%。
- 服务开销:软件栈——批处理策略、内核融合和内存管理。英伟达的TensorRT-LLM(在GitHub上开源,约15k星)使用动态批处理和分页注意力来最大化GPU利用率。vLLM,另一个流行的开源服务框架(约30k星),首创了PagedAttention来管理KV缓存内存,将内存浪费减少了高达60%。
一个关键的技术杠杆是量化。将模型权重从FP16降低到INT4可将内存带宽需求减少4倍,但存在精度下降的风险。像AWQ(激活感知权重量化)和GPTQ(训练后量化)这样的技术已经表明,4位模型在MMLU等基准测试中可以保留FP16精度的99%。这种权衡现在是一个核心设计决策:每节省一位精度,就直接降低Token成本。
| 量化方法 | 位宽 | 内存减少 | MMLU得分 (Llama-2 70B) | Token/秒 (A100) |
|---|---|---|---|---|
| FP16 | 16 | 1x | 68.9 | 12 |
| INT8 (GPTQ) | 8 | 2x | 68.5 | 22 |
| INT4 (AWQ) | 4 | 4x | 67.8 | 38 |
| INT4 (QuIP#) | 4 | 4x | 68.1 | 36 |
数据要点: INT4量化相比FP16几乎将吞吐量提高了三倍,而精度损失不到2%,使其成为成本敏感型部署的主导策略。AWQ和QuIP#之间的差距很小,但AWQ更简单的校准过程使其在生产中具有优势。
另一个架构创新是推测解码。它不是逐个生成Token,而是由一个小型草稿模型提出多个Token,然后大型模型并行验证它们。这可以将延迟敏感型应用的吞吐量提高一倍。谷歌的Medusa框架和英伟达自家的Eagle推测解码实现(在TensorRT-LLM中可用)正在获得关注。
要点: Token成本指标迫使对硬件、量化和服务软件进行整体优化。没有单一杠杆占主导地位;获胜的堆栈将整合所有三者。
关键玩家与案例研究
英伟达仍然是800磅重的大猩猩。其战略是拥有整个推理堆栈:从Blackwell GPU到TensorRT-LLM和Triton推理服务器。英伟达的DGX Cloud和AI Enterprise软件将硬件与优化服务捆绑在一起,将企业锁定在其生态系统中。该公司最新的H200 GPU,配备141 GB HBM3e,可以在单个GPU上服务Llama-3 70B模型,相比H100将Token成本降低了30%。
AMD正在以MI300X发起可信的挑战,该芯片提供192 GB HBM3内存和具有竞争力的FP8性能。然而,AMD的软件栈ROCm在成熟度上仍然落后。开源社区已经围绕vLLM和llama.cpp集结,这些框架现在支持AMD GPU,但英伟达的CUDA生态系统仍然是阻力最小的路径。根据内部基准测试,AMD在Llama-2 70B上的Token成本大约比英伟达的H100高出15%。
Groq采取了一种激进的方法:定制的LPU(语言处理单元)芯片,专为确定性、低延迟推理而设计。Groq的架构完全消除了HBM,使用分布在芯片上的SRAM。这为中规模模型提供了低于1ms的Token延迟,但SRAM容量将模型大小限制在约70B参数。Groq的Token成本对于小型模型具有竞争力,但对于大型模型扩展性不佳。
Cerebras提供了晶圆级引擎(WSE-3),一个拥有4万亿晶体管的单一大芯片。其CS-3系统可以在单个晶圆上服务Llama-2 70B模型,消除了芯片间通信。Cerebras声称在批量推理方面,其Token成本比英伟达的H100低20%,但其单点故障设计和有限的软件生态系统仍然是问题。
| 平台 | 硬件 | 最大模型大小 (INT4) | Token成本 ($) |
|---|---|---|---|
| 英伟达 H100 | H100 SXM | 70B | 0.0021 |
| 英伟达 H200 | H200 SXM | 70B | 0.0015 |
| AMD MI300X | MI300X | 70B | 0.0024 |
| Groq LPU | LPU | 70B | 0.0018 |
| Cerebras CS-3 | WSE-3 | 70B | 0.0017 |