Token经济学：英伟达如何重写AI基础设施的价值规则

多年来，AI行业一直痴迷于原始算力：千万亿次浮点运算、GPU集群和训练速度。英伟达最新的战略转向标志着一场根本性的重新定位。该公司现在主张，随着AI从训练转向推理——模型为聊天机器人、智能体和视频生成实时生成Token——基础设施效率的真正衡量标准是生产每个Token的成本。这不仅仅是技术细节，而是一种经济理念，将重塑芯片设计、模型优化和企业部署。

Token成本将传统的总拥有成本（TCO）框架压缩为一个单一、可操作的数字。它涵盖了硬件价格、能耗、内存带宽、模型架构和服务软件。英伟达自家的Blackwell架构正是这一理念的体现。

技术深度解析

向Token中心经济学的转变源于一个基本的架构现实：推理是内存受限的，而非计算受限。在训练期间，大批量数据涌入GPU，使计算单元饱和。在推理期间，尤其是对于交互式应用，批量大小很小（通常为1），瓶颈变成了内存带宽——模型权重从HBM移动到计算核心的速度。这就是为什么英伟达的H100和B100 GPU强调HBM3e内存，带宽超过3 TB/s。

Token成本可以分解为：

Token成本 = (硬件成本 + 能耗成本 + 服务开销) / 生成的Token数

每个项都受到特定工程选择的影响：

- 硬件成本：芯片尺寸、内存容量和封装（例如，英伟达用于多GPU通信的NVLink）。B200 GPU采用定制的4NP工艺，集成了两个芯片，配备192 GB HBM3e，使更大的模型能够适配更少的GPU，从而减少GPU间通信开销。
- 能耗成本：每个Token的功耗。英伟达的FP8张量核心相比FP16将每次操作的能量消耗降低了2倍，同时保持了模型精度。对于70B参数的模型，FP8推理可以将能耗成本降低近40%。
- 服务开销：软件栈——批处理策略、内核融合和内存管理。英伟达的TensorRT-LLM（在GitHub上开源，约15k星）使用动态批处理和分页注意力来最大化GPU利用率。vLLM，另一个流行的开源服务框架（约30k星），首创了PagedAttention来管理KV缓存内存，将内存浪费减少了高达60%。

一个关键的技术杠杆是量化。将模型权重从FP16降低到INT4可将内存带宽需求减少4倍，但存在精度下降的风险。像AWQ（激活感知权重量化）和GPTQ（训练后量化）这样的技术已经表明，4位模型在MMLU等基准测试中可以保留FP16精度的99%。这种权衡现在是一个核心设计决策：每节省一位精度，就直接降低Token成本。

| 量化方法 | 位宽 | 内存减少 | MMLU得分 (Llama-2 70B) | Token/秒 (A100) |
|---|---|---|---|---|
| FP16 | 16 | 1x | 68.9 | 12 |
| INT8 (GPTQ) | 8 | 2x | 68.5 | 22 |
| INT4 (AWQ) | 4 | 4x | 67.8 | 38 |
| INT4 (QuIP#) | 4 | 4x | 68.1 | 36 |

数据要点： INT4量化相比FP16几乎将吞吐量提高了三倍，而精度损失不到2%，使其成为成本敏感型部署的主导策略。AWQ和QuIP#之间的差距很小，但AWQ更简单的校准过程使其在生产中具有优势。

另一个架构创新是推测解码。它不是逐个生成Token，而是由一个小型草稿模型提出多个Token，然后大型模型并行验证它们。这可以将延迟敏感型应用的吞吐量提高一倍。谷歌的Medusa框架和英伟达自家的Eagle推测解码实现（在TensorRT-LLM中可用）正在获得关注。

要点： Token成本指标迫使对硬件、量化和服务软件进行整体优化。没有单一杠杆占主导地位；获胜的堆栈将整合所有三者。

关键玩家与案例研究

英伟达仍然是800磅重的大猩猩。其战略是拥有整个推理堆栈：从Blackwell GPU到TensorRT-LLM和Triton推理服务器。英伟达的DGX Cloud和AI Enterprise软件将硬件与优化服务捆绑在一起，将企业锁定在其生态系统中。该公司最新的H200 GPU，配备141 GB HBM3e，可以在单个GPU上服务Llama-3 70B模型，相比H100将Token成本降低了30%。

AMD正在以MI300X发起可信的挑战，该芯片提供192 GB HBM3内存和具有竞争力的FP8性能。然而，AMD的软件栈ROCm在成熟度上仍然落后。开源社区已经围绕vLLM和llama.cpp集结，这些框架现在支持AMD GPU，但英伟达的CUDA生态系统仍然是阻力最小的路径。根据内部基准测试，AMD在Llama-2 70B上的Token成本大约比英伟达的H100高出15%。

Groq采取了一种激进的方法：定制的LPU（语言处理单元）芯片，专为确定性、低延迟推理而设计。Groq的架构完全消除了HBM，使用分布在芯片上的SRAM。这为中规模模型提供了低于1ms的Token延迟，但SRAM容量将模型大小限制在约70B参数。Groq的Token成本对于小型模型具有竞争力，但对于大型模型扩展性不佳。

Cerebras提供了晶圆级引擎（WSE-3），一个拥有4万亿晶体管的单一大芯片。其CS-3系统可以在单个晶圆上服务Llama-2 70B模型，消除了芯片间通信。Cerebras声称在批量推理方面，其Token成本比英伟达的H100低20%，但其单点故障设计和有限的软件生态系统仍然是问题。

| 平台 | 硬件 | 最大模型大小 (INT4) | Token成本 ($) |
|---|---|---|---|
| 英伟达 H100 | H100 SXM | 70B | 0.0021 |
| 英伟达 H200 | H200 SXM | 70B | 0.0015 |
| AMD MI300X | MI300X | 70B | 0.0024 |
| Groq LPU | LPU | 70B | 0.0018 |
| Cerebras CS-3 | WSE-3 | 70B | 0.0017 |

时间归档

延伸阅读

常见问题

这次模型发布“Token Economics: Why Nvidia Is Rewriting the Rules of AI Infrastructure Value”的核心内容是什么？

For years, the AI industry fixated on raw compute: petaflops, GPU clusters, and training speed. Nvidia’s latest strategic pivot signals a fundamental reorientation. The company now…

从“What is token cost in AI inference and why does it matter?”看，这个模型发布为什么重要？

The shift to token-centric economics is rooted in a fundamental architectural reality: inference is memory-bound, not compute-bound. During training, large batches of data feed into the GPU, saturating compute units. Dur…

围绕“How does Nvidia's Blackwell architecture reduce cost per token?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。