技术深度解析
Cerebras的竞争护城河是其晶圆级引擎(WSE),一块餐盘大小的单片硅芯片,集成了整个晶圆上的处理单元。当前一代WSE-3拥有4万亿个晶体管、90万个AI优化核心和44 GB片上SRAM,提供125 petaflops的AI算力。这与NVIDIA采用多个较小芯片(小芯片)通过NVLink等高带宽互连连接的方法根本不同。
关键架构优势在于内存带宽。在GPU集群中,模型权重和激活值必须在独立的HBM内存堆栈和计算芯片之间不断传输,造成所谓的“内存墙”瓶颈。Cerebras通过将所有内存置于同一晶圆上消除了这一问题,实现了每秒21 PB的内存带宽——比同类GPU集群高出数个数量级。这对于稀疏模型尤其有利,因为每次推理步骤中只有一小部分参数处于激活状态。稀疏计算需要不规则的内存访问模式,这会拖垮传统GPU架构,但WSE的细粒度数据流执行模型却能原生处理。
一个关键的技术细节是Cerebras对动态稀疏性的支持。虽然NVIDIA的Ampere和Hopper架构支持结构化稀疏性(2:4模式),但Cerebras允许非结构化稀疏性,这意味着任何权重都可以独立归零。这能在不损失精度的情况下实现更高的压缩比,OpenAI利用这一特性来构建其混合专家(MoE)模型。据信,OpenAI的GPT-4及其后续版本使用了MoE层,每个token仅激活一部分专家。Cerebras的架构能以接近零的延迟开销将token路由到正确的专家,而GPU集群则必须在节点间同步,从而产生通信延迟。
| 指标 | Cerebras WSE-3 | NVIDIA H100 SXM | NVIDIA B200 (Blackwell) |
|---|---|---|---|
| 晶体管数量 | 4万亿 | 800亿 | 2080亿 |
| AI核心 | 900,000 | 18,432个CUDA核心 | 约20,000(估计) |
| 片上内存 | 44 GB SRAM | 80 GB HBM3e | 192 GB HBM3e |
| 内存带宽 | 21 PB/s | 3.35 TB/s | 8 TB/s |
| 稀疏支持 | 非结构化 | 结构化(2:4) | 结构化(2:4) |
| 每芯片功耗 | 约15 kW | 700 W | 1,000 W |
| 训练性能(GPT-3 175B) | 约1.5天 | 约3.5天(1,024块GPU集群) | 约1.2天(1,024块GPU集群) |
数据要点: Cerebras在内存带宽上比H100实现了6,000倍的领先优势,这直接转化为对内存带宽密集型工作负载(如稀疏推理和MoE训练)的卓越性能。然而,WSE-3每芯片的功耗是H100的21倍,使其不太适合分布式、功耗受限的部署场景。
对于开发者而言,开源仓库[Cerebras Model Zoo](https://github.com/Cerebras/modelzoo)(超过2,000颗星)提供了针对WSE优化的GPT、BERT和T5模型的预构建实现。该仓库还包含将PyTorch模型转换为Cerebras的CSL(Cerebras Systems Language)格式的脚本,但学习曲线较为陡峭。
关键参与者与案例研究
Cerebras与OpenAI之间的关系是核心支点。这段关系始于2021年,当时OpenAI需要训练一个庞大的稀疏模型,由于通信开销,这在GPU集群上难以实现。Cerebras提供了CS-2系统,结果令人信服,OpenAI因此成为其锚定客户。如今,OpenAI使用Cerebras系统来训练和推理其最具挑战性的模型,包括GPT-4和传闻中的GPT-5。
OpenAI的CTO Mira Murati曾公开表示,Cerebras的硬件实现了“以前不可能的实验”,尤其是在实时推理和多模态生成领域。例如,Cerebras上的低延迟推理对于OpenAI的实时语音模式和视频生成模型Sora至关重要,后者需要逐帧生成且响应时间低于100毫秒。
其他知名客户包括:
- 劳伦斯利弗莫尔国家实验室:使用Cerebras进行科学计算,包括聚变能模拟。
- 葛兰素史克:部署Cerebras用于药物发现,利用WSE处理大规模分子动力学数据集的能力。
- 阿贡国家实验室:使用Cerebras进行癌症研究和基因组分析。
| 客户 | 使用场景 | 模型规模 | 相比GPU集群的性能提升 |
|---|---|---|---|
| OpenAI | 稀疏MoE训练与推理 | 超过1万亿参数 | 训练速度提升3倍,推理延迟降低5倍 |
| GSK | 分子动力学 | 1000万个分子 | 筛选速度提升10倍 |
| LLNL | 聚变等离子体模拟 | 10亿网格点 | 加速4倍 |
数据要点: 性能提升在稀疏、不规则的工作负载上最为显著。对于密集、小规模的模型,优势会缩小,这就是Cerebras瞄准前沿AI的原因。