技术深度解析
这一转变的核心在于传统GPU架构与现代AI工作负载之间的结构性错配。标准GPU为图形渲染中的密集矩阵乘法而设计,其芯片面积约60%用于计算单元,20%用于内存控制器,20%用于缓存。但Transformer推理受限于内存带宽:每进行一次浮点运算,模型都必须从内存中获取权重,这造成了一个标准GPU无法在不大量过度配置的情况下解决的瓶颈。
稀疏计算引擎
最有前景的技术应对方案之一是稀疏计算。开源GitHub仓库`neuralmagic/deepsparse`(现已获得超过3200颗星)证明,通过剪枝BERT模型中90%的权重同时保持99%的准确率,CPU上的推理速度提升了8倍。但硬件必须原生支持这一点。NVIDIA的Ampere架构引入了2:4结构化稀疏性,使稀疏矩阵的吞吐量翻倍。然而,这是一种固定模式——现实世界的稀疏性往往是非结构化的。Groq的LPU(语言处理单元)采取了不同的方法:它使用一种确定性的数据流架构,其中每个操作都在编译时调度,消除了动态调度逻辑的需求。这使得Groq能够通过将非零权重直接映射到计算单元,在稀疏模型上实现99%的利用率。
内存带宽创新
对于像Stable Diffusion 3和Sora这样的扩散模型,瓶颈从计算转向了内存带宽。这些模型需要在每次推理步骤中将整个UNet或DiT架构加载到片上SRAM中。行业的应对方案是采用高带宽内存(HBM)与近内存计算。三星的HBM3E每个堆栈实现了1.2 TB/s的带宽,但真正的创新在于以内存为中心的架构。开源项目`UPMEM`(超过1800颗星)将DRAM与处理中内存(PIM)单元集成,将嵌入查找的数据移动减少了80%。AINews追踪了三家初创公司——d-Matrix、Esperanto和MatX——它们正在构建具有定制SRAM层次结构的芯片,专门为扩散模型推理设计,声称每张图像的能耗比H100低5倍。
用于分布式推理的片上网络
随着模型超过单芯片容量,跨多个芯片的分布式推理变得至关重要。NVIDIA的NVLink 4.0提供了900 GB/s的芯片间带宽,但延迟会随着每次跳转而增加。另一种方案是网状片上架构。Cerebras的晶圆级引擎(WSE-3)在单个晶圆上集成了90万个核心,完全消除了芯片间通信。对于像GPT-4(估计1.8万亿参数)这样的模型,Cerebras声称在64个晶圆上实现了90%的线性扩展——由于通信开销,这在离散GPU上是不可能实现的。
基准数据
| 指标 | NVIDIA H100 SXM | Groq LPU | Cerebras WSE-3 |
|---|---|---|---|
| TDP(瓦特) | 700 | 300 | 15,000(每晶圆) |
| Llama 3 70B吞吐量(token/秒) | 1,200 | 1,500 | 3,200 |
| 每token能耗(焦耳) | 0.58 | 0.20 | 4.69(每晶圆) |
| 稀疏模型利用率 | 50%(2:4) | 99% | 95% |
| 内存带宽(TB/s) | 3.35 | 80(SRAM) | 20(SRAM) |
数据要点: 对于Llama 3 70B,Groq的LPU每token能效比H100高出2.9倍,而Cerebras提供了最高的吞吐量,但代价是晶圆级的功耗,这仅对超大规模部署有意义。关键洞察:效率并非单一维度——它取决于工作负载的规模和稀疏性。
关键玩家与案例研究
Groq
Groq已成为效率优先设计的典范。由前Google TPU工程师创立,Groq的LPU通过在编译时硬编码数据流图,消除了对传统指令调度器的需求。这种确定性执行意味着零流水线停顿。在2024年AI硬件峰会的现场演示中,Groq以每瓦特300 token/秒的速度运行Llama 3 70B——这一指标尚无GPU能匹敌。其商业模式是“推理即服务”(IaaS),按每百万token收费,而非按芯片收费。这使激励措施保持一致:Groq只有在客户实际高效使用计算资源时才能盈利。
Cerebras
Cerebras采取了相反的方法:蛮力扩展。其WSE-3在单个8英寸晶圆上包含4万亿个晶体管。关键优势在于,对于能放入单个晶圆的模型,消除了芯片间通信。对于稀疏模型,Cerebras的CS-3系统实现了95%的利用率,因为每个核心都可以在一个周期内访问片上SRAM中的任何权重。然而,15 kW的功耗要求限制了其部署范围,仅适用于配备专用冷却系统的数据中心。Cerebras已与G42(阿联酋)签订合同,建造一个包含64个CS-3系统的超级计算机,目标实现4 exaFLOPs的稀疏计算能力。
NVIDIA
NVIDIA仍然是出货量的领导者——仅在2024年就出货了超过300万块H100。但其Blackwell B200,TDP高达1000W,正面临效率方面的批评。一份泄露的内部文档显示,NVIDIA正面临来自Groq和Cerebras等效率优先初创公司的竞争压力。