技术深度解析
GPU集群在训练大模型时的核心低效,根源于内存墙与通信墙。例如,在一个由8000块H100 GPU组成的集群中训练万亿参数模型时,参数和梯度被分片存储于每块GPU的高带宽内存(HBM)中。每个训练步骤中,海量数据都必须通过NVLink和InfiniBand网络在所有设备间同步。这种通信开销可占总训练时间与能耗的30-50%,这是使用分立芯片所必须支付的“效率税”。
晶圆级工程(WSE) 直接攻击了这两堵墙。Cerebras基于5纳米工艺打造的WSE-3,是一块面积达46,225平方毫米的单片芯片——比旗舰GPU大50倍以上。它包含90万个针对AI优化的核心,以及44GB分布式部署在统一内存架构上的片上SRAM。由于所有核心和内存位于同一硅片上,数据搬运以片上速度进行(每秒数太字节),且延迟极低。该架构是一台稀疏线性代数计算机,极其擅长支撑Transformer模型的大规模稀疏矩阵乘法。关键在于,它将整个晶圆视为软件层面的单一逻辑处理器,从而消除了对复杂模型并行框架的需求。
其他架构路径:
* Tenstorrent的Ascalon: 采用基于数据流和RISC-V的架构。其核心并非固定流水线,而是根据模型的计算图动态组网,旨在让数据直接在计算单元间流动,避免不必要的内存访问。
* Groq的LPU(语言处理单元): 采用确定性单核架构,并配备巨大的片上SRAM暂存器(GroqChip1上为230 MB)。它通过脉动阵列以可预测的亚毫秒级延迟流式处理张量,使其在超低延迟推理方面表现强悍。
* 开源与研究力量: 开放计算项目(OCP) 和学术实验室正在探索开放小芯片架构。加州大学伯克利分校在GitHub上提供的Chipyard框架,是一个开源的SoC设计环境,正被用于敏捷AI加速器的原型设计。
| 架构 | 核心创新 | 目标工作负载 | 主要优势 |
|---|---|---|---|
| 英伟达GPU(Hopper) | Tensor Cores、NVLink、CUDA生态 | 通用AI训练/推理 | 生态成熟度、多功能性 |
| Cerebras WSE-3 | 单片晶圆级集成 | 大模型训练 | 消除芯片间通信 |
| Tenstorrent Ascalon | 数据流、RISC-V核心 | 训练与推理 | 可编程性、稀疏工作负载效率 |
| Groq LPU | 确定性张量流 | 高吞吐、低延迟推理 | 可预测的微秒级延迟 |
| AMD MI300X | CDNA3、统一内存(CPU+GPU) | LLM推理 | 高内存带宽(5.3TB/s) |
数据启示: 竞争格局正从“一刀切”的GPU方案,转向多样化的专用架构谱系,每种架构针对AI工作负载管线(训练 vs. 推理)中的不同环节以及不同瓶颈(内存带宽、通信延迟、确定性)进行优化。
关键参与者与案例研究
该领域由资金雄厚、理念各异的挑战者领跑。
Cerebras Systems: 由Andrew Feldman和Sean Lie创立,Cerebras采取了最大胆的物理实现路径。其围绕WSE-3构建的CS-3系统,已部署于匹兹堡超级计算中心等主要超算中心,客户包括阿贡国家实验室和葛兰素史克。其标志性案例是从头开始训练一个1万亿参数模型,证明了其处理参数量的能力,而这在GPU上需要极端的模型并行策略。该公司的Cerebras Software Platform对晶圆级硬件进行了抽象,允许PyTorch和TensorFlow模型以最小修改运行。
Tenstorrent: 由行业资深人士Jim Keller(曾领导苹果A4/A5和AMD Zen架构设计)领导,Tenstorrent押注于开放性与敏捷性。其架构围绕RISC-V构建,旨在避免CUDA的专有锁定。公司采取双轨战略:既销售自研AI芯片(如Ascalon),也向其他芯片制造商授权其AI和RISC-V IP。这使其有望成为更广泛挑战者生态的赋能者。
Groq: 由前谷歌TPU工程师创立,Groq在超高速、确定性推理领域开辟了利基市场。其LPU推理引擎在MLPerf Inference v4.0等基准测试中创下纪录,在LLM token生成上展现了无与伦比的性能。其模式并非直接在训练领域竞争,而是旨在主导从聊天机器人到金融分析工具等实时应用的推理市场。
现有巨头的回应:
* 英伟达并未坐视。其持续迭代的GPU架构(如Hopper)通过更强的Tensor Core、更快的NVLink互连以及针对Transformer的软件优化(如Transformer Engine)来巩固地位。其庞大的CUDA软件生态和开发者社区,仍是其最深的护城河。
* AMD凭借MI300X系列强势进入,其CDNA 3架构和高达5.3TB/s的内存带宽,使其在LLM推理等内存密集型任务上成为有力竞争者,并积极构建ROCm软件生态以挑战CUDA。
* 英特尔通过Gaudi系列加速器,以及收购Habana Labs获得的技术,在AI训练市场寻求突破,强调更高的能效比。
市场影响预测: 短期内,GPU凭借其生态和通用性,仍将是AI基础设施的基石,尤其是在训练领域。但晶圆级和专用架构将在特定场景(如超大规模模型训练、超低延迟推理)中不断侵蚀其份额。长期看,AI硬件市场将走向分化:训练侧可能由少数几种高性能架构(GPU、WSE)主导,而推理侧将出现百花齐放的专用加速器。成本结构的变化可能最终传导至AI服务价格,使更多企业与研究机构能够负担得起前沿模型的开发与部署。