技术深度解析
OpenAI-博通芯片的核心创新在于其对内存带宽墙的攻克,这是Transformer推理性能的根本限制因素。与受计算限制的训练不同,自回归推理是内存受限的:生成每个token都需要从内存中获取整个模型的权重,以完成单次注意力步骤。为并行矩阵乘法设计的通用GPU,在针对这种顺序模式优化的内存层级中移动数据时,会浪费大量能量和时间。
该芯片采用了一种稀疏数据流架构,利用训练后Transformer模型中固有的稀疏性。通过集成一个带有专用片上暂存存储器(高达192MB SRAM)的自定义脉动阵列,该芯片可以在解码阶段将整个注意力头或层权重保持在本地,从而大幅减少片外内存访问。这结合了一个可变精度计算单元,支持FP8、INT8甚至FP4格式,能够动态切换每层的精度以平衡准确性和吞吐量。结果如下表所示,在Llama 3 70B模型上,该芯片的每瓦特每秒token数比NVIDIA H100提升了4.2倍。
| 指标 | OpenAI-博通芯片 | NVIDIA H100 | AMD MI300X |
|---|---|---|---|
| Tokens/秒 (Llama 3 70B, FP8) | 4,800 | 1,150 | 1,020 |
| 功耗 (TDP, 瓦特) | 350 | 700 | 750 |
| Tokens/秒/瓦特 | 13.7 | 1.64 | 1.36 |
| 片上SRAM | 192 MB | 50 MB | 64 MB |
| HBM带宽 | 4.0 TB/s | 3.35 TB/s | 5.2 TB/s |
| 芯片间互连 | Broadcom 3.2T SerDes | NVLink 900 GB/s | Infinity Fabric 896 GB/s |
数据要点: OpenAI-博通芯片在能效(tokens/秒/瓦特)上比H100实现了8.4倍的提升,这主要得益于其3.8倍更大的片上SRAM,从而减少了片外内存流量。这不是制程节点的缩小,而是一次针对性的架构优化,重新定义了推理成本曲线。
对于开发者而言,该芯片通过一个自定义运行时库暴露,该库集成了OpenAI现有的Triton编译器与vLLM推理引擎。开源社区已经可以通过FlexGen仓库(github.com/FMInference/FlexGen,18k星标)尝试类似原理,该仓库实现了内存受限推理的卸载策略,但缺乏定制芯片级别的硬件数据流优化。
关键参与者与案例研究
此次合作是战略互补性的典范。OpenAI带来了模型工作负载知识——精确了解哪些操作(例如,注意力softmax、层归一化、前馈矩阵乘法)主导了推理延迟。博通贡献了其业界领先的3.2T SerDes(串行器/解串器)技术用于芯片间互连,以及其在基于芯粒的设计上的成熟经验,这使得芯片可以由更小、良率更高的裸片构建而成。这对于扩展到OpenAI所需的大规模服务器集群至关重要。
此举直接挑战了NVIDIA的主导地位。虽然NVIDIA的下一代Blackwell架构(B200)将推理吞吐量提升了2-3倍(相比H100),但它仍然是一个通用设计。OpenAI-博通芯片对推理的专注使其在特定工作负载上能够超越Blackwell,如下表所示。
| 芯片 | 目标工作负载 | 峰值TFLOPS (FP8) | 推理效率 (Llama 3 70B, tok/s/W) |
|---|---|---|---|
| NVIDIA B200 | 训练 + 推理 | 4,500 | 2.1 (估计) |
| OpenAI-博通 | 仅推理 | 1,200 | 13.7 |
| Google TPU v5p | 训练 + 推理 | 918 | 3.8 (估计) |
| AMD MI400 (传闻) | 训练 + 推理 | 3,200 | 1.8 (估计) |
数据要点: 定制芯片以牺牲原始峰值算力(1,200 TFLOPS vs. B200的4,500 TFLOPS)换取了6.5倍的推理效率提升,这证明了对于服务工作负载而言,架构专业化胜过蛮力计算。
案例研究:Apple Silicon。 最接近的类比是苹果从Intel转向自研M系列芯片。通过控制硬件,苹果针对其特定软件栈(Metal, Core ML)进行了优化,实现了每瓦特性能的领先地位。OpenAI正在复制这一策略:定制芯片将与OpenAI的模型架构(例如,MoE路由、滑动窗口注意力)及其专有推理引擎紧密耦合,形成一道竞争对手难以用现成GPU复制的护城河。
行业影响与市场动态
直接的影响是推理定价的逐底竞争。自GPT-3以来,OpenAI的API定价已经下降了90%。这款芯片可能实现另一个10倍的降价,使得GPT-4级别的智能对高流量、低延迟的应用(如实时对话代理、IDE中的代码补全和自动驾驶感知)变得负担得起。这将压缩Together AI、Fireworks AI等推理即服务提供商的利润空间。