技术深度解析
Cerebras 创新的核心,是对传统半导体经济学的颠覆。数十年来,芯片制造商都将硅晶圆切割成数百个独立裸片,以最大化良率。而由联合创始人兼首席执行官 Andrew Feldman 领导的 Cerebras 反其道而行:它将整个晶圆用作一个单一的计算基板。其当前的旗舰产品 Wafer-Scale Engine 3 采用台积电 5 纳米制程工艺打造,拥有 4 万亿个晶体管、90 万个针对 AI 优化的核心,以及均匀分布在 46,225 平方毫米晶圆表面、容量高达 44 GB 的 SRAM 内存。其片上内存带宽高达每秒 21.8 PB,这正是该系统的超级能力所在,它彻底消除了困扰 GPU 集群的巨大片外内存瓶颈。
该架构专为极致并行性和最低通信延迟而设计。在由数千个 GPU 组成的集群中训练万亿参数模型时,参数及其梯度必须通过高速网络在 GPU 间不断进行分片和同步,这种跨 GPU 通信在时间和能耗上都是主要成本。相比之下,WSE-3 可以将整个模型驻留在其晶圆上的 SRAM 中,所有 90 万个核心都能在单个时钟周期内访问任何参数,从而将分布式计算问题转化为本地化问题。这使得它在训练的前向和反向传播中异常高效,因为权重矩阵密集且操作高度并行。
软件方面,Cerebras 通过其软件平台交付,该平台包含一个图编译器,可自动将标准的 PyTorch 或 TensorFlow 模型并行化到晶圆的各个核心上。展示其软件方法的一个关键开源组件是 `cerebras/modelzoo` GitHub 代码库。该库托管了针对 WSE 优化的流行模型实现,提供了清晰的基准测试和脚本,吸引了大量希望移植模型的研究人员关注,其持续更新也反映了新模型架构和性能优化。
其性能宣称十分大胆。Cerebras 称,单个 CS-3 系统即可从头开始训练一个 1 万亿参数的模型,而同样的任务需要由数千个最新 GPU 组成的集群才能完成。针对大语言模型的特定基准测试,该公司发布的数据显示训练时间大幅缩短。
| 工作负载 | 硬件配置 | 预计训练时间 | 关键限制因素 |
|---|---|---|---|
| Cerebras CS-3 | 1 x WSE-3 | ~1 个月 | 晶圆上 SRAM 容量 |
| GPU 集群 | 1024 x H100 GPU | ~1 个月 | GPU 间通信、内存带宽 |
| GPU 集群 | 2048 x A100 GPU | ~2+ 个月 | GPU 间通信、内存带宽 |
数据解读: 上表揭示了核心的权衡。Cerebras 系统以极其简化的硬件堆栈实现了可比的训练时间——一块晶圆对阵上千个 GPU 及其复杂网络。其限制因素从网络延迟转变为晶圆上的物理 SRAM 容量,而 Cerebras 正通过扩大晶圆尺寸和升级制程节点来应对这一约束。
关键参与者与案例研究
AI 硬件竞技场已非一家独大。虽然英伟占据数据中心 AI 芯片市场超 80% 的份额,但挑战者们正从不同的架构角度发起进攻。
* Cerebras Systems: 本文主角,将全部赌注押在晶圆级集成上,用于训练和大批量推理。其主要案例是 OpenAI。据报道,这份为期多年、价值超千亿美元的协议不仅是销售合同,更是一种共同开发伙伴关系。OpenAI 对通用人工智能的追求需要遵循 scaling laws,而当前的 GPU 集群可能在功耗、散热、同步等方面触及物理极限。Cerebras 提供了一条将整个模型置于一块“芯片”上的路径,这对 OpenAI 最大的前沿模型而言是一个极具吸引力的愿景。与 AWS 的合作 是另一关键支柱,为企业与研究人员提供了基于云的接入途径,使其无需巨额资本支出即可获得 WSE 的算力。
* 英伟达: 行业霸主,凭借其完整的生态系统参与竞争。其战略是在多 GPU 范式内进行渐进式、代际式的改进,近期重点推广 DGX GB200 NVL72——一个将 72 个 GPU 连接成单个逻辑 GPU 的大型液冷机架。英伟达应对内存问题的方法是 HBM3e 和更快的互连技术,而非单片集成。
* Groq: 推理领域的直接竞争者。Groq 的 LPU 是一种确定性的单芯片架构,专注于为 LLM 提供超低延迟的 token 生成。它在新兴的专用推理市场中与 Cerebras 形成竞争。