技术深度解析
推理挑战的核心在于内存墙。在训练过程中,海量数据批次流经GPU,使计算单元保持饱和状态,瓶颈在于计算吞吐量。而在推理中,尤其是对于GPT-4或Llama 3这类自回归模型,过程是顺序的:一次生成一个token,使用前一个token的输出作为输入。这种串行依赖意味着GPU大部分时间都在等待从内存(HBM或GDDR)中获取数据,而非进行计算。关键指标从FLOPS转向了内存带宽和内存容量。
内存带宽瓶颈:
对于单次推理请求,模型权重必须在每个token生成步骤中从内存加载到计算单元。对于一个70B参数的FP16模型,权重大小为140GB。即使HBM3e提供约3.35 TB/s的带宽,加载权重的理论最小时间也是140 GB / 3.35 TB/s ≈ 42毫秒。再加上注意力计算、KV-cache读写和其他开销,延迟很快会超过100毫秒——这对于实时应用来说是不可接受的。这就是量化(INT8、FP8、FP4)和推测解码等技术存在的原因:它们减少了每个token的有效内存负载。
硬件分化:
传统GPU被设计为通用并行处理器。其庞大的SIMT核心和高带宽内存非常适合训练,但对于推理来说则有些大材小用。新的架构正在涌现以解决这一问题:
- Groq的LPU(语言处理单元): Groq通过使用确定性、软件定义的架构,以SRAM替代DRAM,消除了内存瓶颈。SRAM的延迟比HBM低10-20倍,但密度低得多。Groq的LPU通过高度流水线化的方式从SRAM中流式传输权重,实现了大模型的个位数毫秒级延迟。代价是成本:SRAM价格昂贵,扩展到非常大的模型需要多个LPU并行工作。
- Cerebras晶圆级引擎(WSE): Cerebras将整个硅晶圆(未切割)集成到一个处理器中。WSE-3拥有4万亿个晶体管和44 GB的片上SRAM,使整个模型能够驻留在芯片上。这完全消除了片外内存访问,显著降低了延迟。挑战在于热管理和软件兼容性;Cerebras构建了自己的编译器和运行时。
- 定制ASIC(例如Google TPU、Amazon Trainium/Inferentia): 这些是为特定工作负载量身定制的。例如,Google的TPU v5p拥有专用的MXU(矩阵乘法单元)和高带宽内存,但其推理效率通过批处理和模型分区得到提升。Amazon的Inferentia2采用定制的NeuronCore架构,带有用于本地权重存储的嵌入式SRAM,针对大规模低延迟推理进行了优化。
软件栈演进:
硬件只是成功的一半。软件栈也必须重新思考。推动这一变革的关键开源项目包括:
- vLLM(GitHub: vllm-project/vllm,约35k星标): 实现了PagedAttention,该技术将KV-cache管理在非连续的内存块中,减少了内存碎片并提高了吞吐量。它已成为许多部署的事实标准推理引擎。
- TensorRT-LLM(GitHub: NVIDIA/TensorRT-LLM,约10k星标): NVIDIA自家的推理优化库,提供图优化、内核融合和动态批处理。它与NVIDIA硬件紧密耦合。
- llama.cpp(GitHub: ggerganov/llama.cpp,约70k星标): 专注于CPU和低资源推理,使用整数量化(Q4_0、Q5_1等)和高效的内存映射。它使得在消费级硬件上运行大模型成为可能。
基准测试数据:
| 模型 | 硬件 | 批次大小 | 延迟 (ms/token) | 吞吐量 (tokens/s) | 成本 ($/1M tokens) |
|---|---|---|---|---|---|
| Llama 3 70B | NVIDIA H100 (8x) | 1 | 45 | 22 | $1.20 |
| Llama 3 70B | Groq LPU (1x) | 1 | 8 | 125 | $0.80 |
| Llama 3 70B | Cerebras WSE-3 | 1 | 12 | 83 | $0.65 |
| Llama 3 70B | AWS Inferentia2 | 1 | 30 | 33 | $0.90 |
数据要点: 对于单次请求,Groq和Cerebras的延迟比H100低3-5倍,成本降低20-45%。这是其以内存为中心的架构的直接结果。对于批量推理,H100的计算优势缩小了差距,但对于实时应用,新架构取得了决定性胜利。
关键玩家与案例研究
Groq: 由前Google TPU工程师创立,Groq将自己定位为低延迟冠军。其LPU架构现已通过GroqCloud提供,为Mixtral 8x7B和Llama 3 70B等模型提供低于10毫秒延迟的API访问。该公司已融资超过10亿美元,据称正在开发具有更高SRAM容量的下一代LPU。其战略很明确:占领聊天机器人、代码补全和语音助手等应用的实时推理市场。
Cerebras: 凭借其晶圆级引擎,Cerebras在推理领域开辟了独特的赛道。WSE-3的44 GB片上SRAM使其能够将整个Llama 3 70B模型(量化后)容纳在芯片上,无需访问外部内存。这带来了极低的延迟和可预测的性能。Cerebras已与制药和金融服务公司合作,用于需要低延迟和确定性计算的实时推理工作负载。其挑战在于软件生态系统的成熟度,以及如何说服客户从GPU迁移到其专有平台。
NVIDIA: 尽管H100在推理方面并非最优,但NVIDIA并未坐以待毙。其TensorRT-LLM库和即将推出的Blackwell架构(B100/B200)引入了专门针对推理的改进,如更大的SRAM缓存和更高效的内存带宽利用率。NVIDIA的策略是继续利用其软件生态系统(CUDA、TensorRT)的粘性,同时通过硬件迭代缩小差距。然而,随着专用推理芯片的崛起,NVIDIA在推理市场的份额面临压力。
云服务提供商: AWS、Google Cloud和Microsoft Azure都在构建自己的推理基础设施。AWS的Inferentia2和Trainium2、Google的TPU v5p以及Microsoft的Maia 100都是针对推理优化的定制芯片。这些云巨头正在将推理能力作为差异化服务提供,通过自研芯片降低对NVIDIA的依赖,并优化成本结构。