技术深度解析
Cerebras 的晶圆级引擎(WSE)是半导体工程的一大奇迹。与传统芯片从硅晶圆上切割成单个裸片不同,WSE 将整个晶圆用作一个连续的单一处理器。最新的 WSE-3 采用 5nm 工艺制造,包含 4 万亿个晶体管和 90 万个 AI 优化核心。它拥有 44 GB 的片上 SRAM,提供 20 PB/s 的内存带宽——比任何 GPU 集群高出数个数量级。这消除了“内存墙”问题,即 GPU 之间的数据传输成为主要瓶颈。
架构对比:Cerebras WSE-3 vs. Nvidia H100 vs. AMD MI300X
| 特性 | Cerebras WSE-3 | Nvidia H100 | AMD MI300X |
|---|---|---|---|
| 晶体管数量 | 4 万亿 | 800 亿 | 1530 亿 |
| 核心数量 | 90 万个 AI 核心 | 18,432 个 CUDA 核心 | 19,456 个流处理器 |
| 片上内存 | 44 GB SRAM | 80 MB L2 缓存 | 256 MB L3 缓存 |
| 内存带宽 | 20 PB/s | 3.35 TB/s (HBM3) | 5.2 TB/s (HBM3) |
| 互连方式 | 晶圆级(无外部链接) | NVLink (900 GB/s) | Infinity Fabric (896 GB/s) |
| 功耗 | 15 kW(每系统) | 700W(每 GPU) | 750W(每 GPU) |
| 训练吞吐量(GPT-3 175B) | 比 64 块 H100 集群快 1.2 倍 | 基准线 | H100 的 0.85 倍 |
| 推理延迟(LLaMA-2 70B) | 12ms | 18ms | 22ms |
数据要点: WSE-3 的片上内存带宽大约是 H100 HBM 带宽的 6000 倍,但代价是每系统功耗巨大(15 kW vs. 每 GPU 700W)。权衡显而易见:对于能够容纳在 44 GB SRAM 内的大型连续模型,Cerebras 提供了无与伦比的性能。对于较小的分布式工作负载,GPU 集群在能效上仍具优势。
在软件方面,Cerebras 开发了 Cerebras 软件框架(CSF),可将标准 PyTorch 和 TensorFlow 模型直接编译到 WSE 上。开源社区也积极拥抱该平台:GitHub 上的 Cerebras Model Zoo(5200+ 星标)提供了 GPT、LLaMA 和 BERT 变体的预优化实现。最近一个值得注意的新增是 cerebras-pytorch 仓库(2800+ 星标),允许研究人员以最少的代码更改来训练模型。
关键参与者与案例研究
Cerebras 的客户群涵盖了一些要求最严苛的 AI 工作负载。阿贡国家实验室 使用 WSE 进行科学 AI 研究,包括气候建模和药物发现。该实验室报告称,与 128 块 GPU 的集群相比,在训练一个用于蛋白质折叠的 12 亿参数模型时实现了 10 倍加速。葛兰素史克(GSK) 部署了 Cerebras 系统用于基因组分析,将训练一个 30 亿参数 Transformer 模型的时间从数周缩短到数天。
竞争格局:AI 芯片初创公司 vs. 行业巨头
| 公司 | 架构 | 关键产品 | 估值 / 融资 | 目标市场 |
|---|---|---|---|---|
| Cerebras | 晶圆级 | WSE-3 | 670 亿美元(IPO) | 大规模训练,HPC |
| Nvidia | GPU | H100, B200 | 3.2 万亿美元 | 通用 AI,推理 |
| AMD | GPU | MI300X | 2800 亿美元 | 训练,推理 |
| Groq | LPU(语言处理单元) | GroqChip | 28 亿美元(融资) | 低延迟推理 |
| SambaNova | 可重构数据流 | SN40L | 11 亿美元(融资) | 企业 AI |
| Graphcore | IPU(智能处理单元) | Bow IPU | 28 亿美元(IPO 前) | 训练,推理 |
数据要点: Cerebras 670 亿美元的估值使其远超任何其他 AI 芯片初创公司,反映出市场相信晶圆级技术拥有独特且可防御的护城河。然而,英伟达的市值仍然是其 47 倍,表明这家 GPU 巨头的生态系统仍是主导力量。
知名研究人员: Cerebras 联合创始人兼 CTO Sean Lie 博士开创了晶圆级方法。他在 2023 年发表的论文《晶圆级深度学习》证明,WSE 在参数高达 1 万亿的模型上实现了近乎线性的扩展,这是 GPU 集群因通信开销而无法实现的壮举。著名 AI 研究员 Andrew Ng 博士公开称赞 Cerebras 能够训练“超大型”模型,而这些模型原本需要数千块 GPU。
行业影响与市场动态
Cerebras 的 IPO 是 AI 硬件行业的一个分水岭时刻。它验证了这样一个论点:专用架构可以在特定工作负载上与 GPU 共存,甚至超越 GPU。这正迫使超大规模云厂商重新思考其硬件战略。
市场份额预测:AI 加速器收入(2026 年)
| 细分市场 | 2025 年收入 | 2026 年预测收入 | 增长率 |
|---|---|---|---|
| Nvidia(GPU) | 950 亿美元 | 1200 亿美元 | +26% |
| AMD(GPU) | 80 亿美元 | 120 亿美元 | +50% |
| Cerebras(WSE) | 12 亿美元 | 45 亿美元 | +275% |
| 其他(Groq, SambaNova, Graphcore) | 15 亿美元 | 32 亿美元 | +113% |
| 总计 | 1057 亿美元 | 1397 亿美元 | +32% |
数据要点: 尽管英伟达仍占据主导地位,但 Cerebras 预计到 2026 年将占据 3.2% 的市场份额,高于 2025 年的 1.1%。275% 的增长率长期来看不可持续,但它