AI芯片信任迁移：从出货量到实测效率

几十年来，半导体行业以芯片出货量衡量成功。出货量意味着市场份额、制造实力和客户信心。但AI正在重写这一规则。基于Transformer的大语言模型（LLM）、用于视频生成的扩散模型以及自主智能体系统的兴起，创造了如此专业化的负载，以至于原始芯片数量不再与现实世界性能相关。一个运行1万亿参数模型、利用率仅10%的10万芯片部署，其价值低于一个通过稀疏计算和优化内存带宽实现60%利用率的1万芯片集群。

这一转变并非理论空谈。主要云服务商和AI实验室现在要求的是每瓦性能保证，而非出货量预测。像Groq这样的初创公司正在重新定义信任——通过展示每瓦特每秒处理的token数，而非芯片发货数量。对于投资者和决策者而言，关键问题是：当效率而非数量成为新标准时，如何评估AI芯片公司的价值？答案在于理解架构创新——从稀疏计算引擎到内存带宽突破——这些创新正在重塑硬件与AI工作负载之间的关系。

技术深度解析

这一转变的核心在于传统GPU架构与现代AI工作负载之间的结构性错配。标准GPU为图形渲染中的密集矩阵乘法而设计，其芯片面积约60%用于计算单元，20%用于内存控制器，20%用于缓存。但Transformer推理受限于内存带宽：每进行一次浮点运算，模型都必须从内存中获取权重，这造成了一个标准GPU无法在不大量过度配置的情况下解决的瓶颈。

稀疏计算引擎

最有前景的技术应对方案之一是稀疏计算。开源GitHub仓库`neuralmagic/deepsparse`（现已获得超过3200颗星）证明，通过剪枝BERT模型中90%的权重同时保持99%的准确率，CPU上的推理速度提升了8倍。但硬件必须原生支持这一点。NVIDIA的Ampere架构引入了2:4结构化稀疏性，使稀疏矩阵的吞吐量翻倍。然而，这是一种固定模式——现实世界的稀疏性往往是非结构化的。Groq的LPU（语言处理单元）采取了不同的方法：它使用一种确定性的数据流架构，其中每个操作都在编译时调度，消除了动态调度逻辑的需求。这使得Groq能够通过将非零权重直接映射到计算单元，在稀疏模型上实现99%的利用率。

内存带宽创新

对于像Stable Diffusion 3和Sora这样的扩散模型，瓶颈从计算转向了内存带宽。这些模型需要在每次推理步骤中将整个UNet或DiT架构加载到片上SRAM中。行业的应对方案是采用高带宽内存（HBM）与近内存计算。三星的HBM3E每个堆栈实现了1.2 TB/s的带宽，但真正的创新在于以内存为中心的架构。开源项目`UPMEM`（超过1800颗星）将DRAM与处理中内存（PIM）单元集成，将嵌入查找的数据移动减少了80%。AINews追踪了三家初创公司——d-Matrix、Esperanto和MatX——它们正在构建具有定制SRAM层次结构的芯片，专门为扩散模型推理设计，声称每张图像的能耗比H100低5倍。

用于分布式推理的片上网络

随着模型超过单芯片容量，跨多个芯片的分布式推理变得至关重要。NVIDIA的NVLink 4.0提供了900 GB/s的芯片间带宽，但延迟会随着每次跳转而增加。另一种方案是网状片上架构。Cerebras的晶圆级引擎（WSE-3）在单个晶圆上集成了90万个核心，完全消除了芯片间通信。对于像GPT-4（估计1.8万亿参数）这样的模型，Cerebras声称在64个晶圆上实现了90%的线性扩展——由于通信开销，这在离散GPU上是不可能实现的。

基准数据

| 指标 | NVIDIA H100 SXM | Groq LPU | Cerebras WSE-3 |
|---|---|---|---|
| TDP（瓦特） | 700 | 300 | 15,000（每晶圆） |
| Llama 3 70B吞吐量（token/秒） | 1,200 | 1,500 | 3,200 |
| 每token能耗（焦耳） | 0.58 | 0.20 | 4.69（每晶圆） |
| 稀疏模型利用率 | 50%（2:4） | 99% | 95% |
| 内存带宽（TB/s） | 3.35 | 80（SRAM） | 20（SRAM） |

数据要点： 对于Llama 3 70B，Groq的LPU每token能效比H100高出2.9倍，而Cerebras提供了最高的吞吐量，但代价是晶圆级的功耗，这仅对超大规模部署有意义。关键洞察：效率并非单一维度——它取决于工作负载的规模和稀疏性。

关键玩家与案例研究

Groq

Groq已成为效率优先设计的典范。由前Google TPU工程师创立，Groq的LPU通过在编译时硬编码数据流图，消除了对传统指令调度器的需求。这种确定性执行意味着零流水线停顿。在2024年AI硬件峰会的现场演示中，Groq以每瓦特300 token/秒的速度运行Llama 3 70B——这一指标尚无GPU能匹敌。其商业模式是“推理即服务”（IaaS），按每百万token收费，而非按芯片收费。这使激励措施保持一致：Groq只有在客户实际高效使用计算资源时才能盈利。

Cerebras

Cerebras采取了相反的方法：蛮力扩展。其WSE-3在单个8英寸晶圆上包含4万亿个晶体管。关键优势在于，对于能放入单个晶圆的模型，消除了芯片间通信。对于稀疏模型，Cerebras的CS-3系统实现了95%的利用率，因为每个核心都可以在一个周期内访问片上SRAM中的任何权重。然而，15 kW的功耗要求限制了其部署范围，仅适用于配备专用冷却系统的数据中心。Cerebras已与G42（阿联酋）签订合同，建造一个包含64个CS-3系统的超级计算机，目标实现4 exaFLOPs的稀疏计算能力。

NVIDIA

NVIDIA仍然是出货量的领导者——仅在2024年就出货了超过300万块H100。但其Blackwell B200，TDP高达1000W，正面临效率方面的批评。一份泄露的内部文档显示，NVIDIA正面临来自Groq和Cerebras等效率优先初创公司的竞争压力。

时间归档

延伸阅读

常见问题

这次模型发布“AI Chip Trust Shifts from Shipment Volume to Measured Efficiency”的核心内容是什么？

For decades, the semiconductor industry measured success by how many chips shipped. Volume meant market share, manufacturing prowess, and customer confidence. But AI is rewriting t…

从“AI chip efficiency benchmark comparison 2025”看，这个模型发布为什么重要？

The core of this transformation lies in the architectural mismatch between traditional GPU designs and modern AI workloads. A standard GPU, designed for dense matrix multiplications in graphics rendering, dedicates rough…

围绕“Groq LPU vs NVIDIA H100 energy per token real data”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。