技术深度解析
从训练主导到推理主导的转变,不仅仅是市场趋势——它是底层架构和算法现实的必然结果。训练一个像GPT-4或Llama 3这样的大语言模型需要巨大的前期算力:对数万亿个token进行前向和反向传播、梯度更新和检查点保存。但一旦训练完成,模型就是一个静态制品。相比之下,推理是动态且持续的。每个用户查询都会触发对整个模型的前向传播——对于一个700亿参数的模型,这意味着每生成一个token就需要数十亿次浮点运算。当数百万用户每天进行数千次查询时,累积的算力消耗远超训练成本。
内存带宽 vs. 计算瓶颈。 关键的技术洞察是:推理通常受内存带宽限制,而非计算能力限制。在推理过程中,模型权重必须从内存加载到计算单元中,每个token都要重复这一过程。对于一个采用16位精度的700亿参数模型,权重数据高达140GB。即使使用HBM3e(3.2 TB/s)这样的高带宽内存,加载这些权重也需要大约每token 44微秒。而实际的矩阵乘法运算只占其中一小部分时间。这意味着推理延迟主要由内存访问决定,而非算术运算。这就是为什么量化(例如4位或8位)和推测解码等技术如此有效——它们减少了内存占用或顺序步骤的数量。
关键优化技术。 几个开源仓库已成为推理优化的必备工具:
- llama.cpp(GitHub: ggerganov/llama.cpp,70k+星标):一个C++实现,可在CPU和GPU上运行LLM,并支持激进量化(低至2位)。它使用自定义内存布局和内核融合来最小化内存传输。最近的更新包括对FlashAttention和批量推理的支持。
- vLLM(GitHub: vllm-project/vllm,40k+星标):一个高吞吐量推理引擎,使用PagedAttention高效管理键值缓存内存。它在服务LLM时实现了接近最优的GPU利用率,相比朴素实现吞吐量提升2-4倍。
- TensorRT-LLM(NVIDIA):一个闭源但广泛使用的库,通过层融合、内核自动调优和飞行中批处理优化NVIDIA GPU上的推理。它是许多生产部署的支柱。
- MLC-LLM(GitHub: mlc-ai/mlc-llm,20k+星标):一个通用部署框架,使用TVM将模型编译到不同硬件(GPU、CPU、移动设备、网页)上运行。它实现了最小开销的边缘推理。
基准数据。 下表比较了在NVIDIA A100 80GB GPU上,不同模型和优化堆栈的推理性能:
| 模型 | 优化方案 | 批处理大小 | Token/秒 | 延迟(毫秒/token) | 内存(GB) |
|---|---|---|---|---|---|
| Llama 3 70B | 朴素PyTorch | 1 | 12 | 83 | 140 |
| Llama 3 70B | vLLM (FP16) | 1 | 28 | 36 | 140 |
| Llama 3 70B | vLLM (INT8) | 1 | 45 | 22 | 70 |
| Llama 3 70B | TensorRT-LLM (FP16) | 1 | 32 | 31 | 140 |
| Llama 3 70B | TensorRT-LLM (INT4) | 1 | 68 | 15 | 35 |
| Mistral 7B | llama.cpp (Q4_K_M) | 1 | 110 | 9 | 4.5 |
数据要点: 量化和优化的推理引擎可以实现3-6倍的吞吐量提升和2-4倍的内存减少。对于生产部署,推理堆栈的选择与模型本身同样重要。
关键玩家与案例研究
推理优先的世界已经在重塑主要参与者的战略。以下是各公司如何定位自己:
NVIDIA 长期以来凭借H100和B200 GPU主导训练市场,但该公司现在正积极推动推理优化。TensorRT-LLM库是免费的,但与NVIDIA硬件深度绑定,形成了护城河。然而,定制推理芯片的崛起威胁着这种主导地位。NVIDIA的下一代Blackwell架构包含针对Transformer模型的专用推理引擎,旨在将延迟比Hopper降低5倍。
AMD 正在凭借MI300X和ROCm软件栈发起攻势。虽然训练支持相对滞后,但AMD的每美元推理性能具有竞争力。开源社区已将vLLM和llama.cpp移植到ROCm,但稳定性仍是一个问题。AMD的优势在于内存容量:MI300X提供192GB的HBM3,使得更大规模的模型无需分片即可运行。
Groq(不要与Elon Musk的xAI混淆)构建了定制的LPU(语言处理单元),在Llama 3 70B上实现了低于10毫秒的延迟,远快于基于GPU的解决方案。代价是每芯片吞吐量较低和专有软件栈。Groq的方法非常适合语音助手等实时应用。
Cerebras 使用晶圆级引擎(WSE-3),将所有模型权重保留在芯片上,消除了内存带宽瓶颈。对于推理而言,这带来了确定性的低延迟。Cerebras已与Qualcomm合作,瞄准边缘推理领域。