OpenAI与博通联手定制芯片，改写AI推理的经济学规则

2026年6月25日 16:01 AINews Hacker News June 2026

来源：Hacker News OpenAI inference optimization AI hardware 归档：June 2026

OpenAI与博通联合推出专为大语言模型推理设计的定制芯片，直击通用GPU在内存带宽与延迟上的核心瓶颈。这一合作标志着AI硬件从训练中心架构向推理优化架构的根本性转变，旨在大幅降低AI模型服务的单位成本，并解锁全新的实时应用场景。

在一项重新定义AI部署经济学的重大举措中，OpenAI与博通联合宣布推出一款从头为大型语言模型推理设计的定制芯片。该芯片的架构直击Transformer推理的主要瓶颈——内存带宽墙，通过将高带宽内存（HBM）直接集成在封装内，并采用最小化数据移动的数据流架构，实现了突破性效率提升。根据双方分享的内部基准测试，与NVIDIA H100等领先GPU相比，该芯片在每瓦特每秒生成的token数上实现了3-5倍的提升。此次合作充分利用了博通在高速互连和大规模芯粒集成方面的专长，确保该设计并非实验室实验，而是一款可量产、可部署的产品。此举直接挑战了NVIDIA在AI硬件领域的主导地位，并可能引发推理服务价格的“逐底竞争”，使GPT-4级别的智能对高流量、低延迟应用（如实时对话代理、IDE代码补全和自动驾驶感知）变得触手可及。

技术深度解析

OpenAI-博通芯片的核心创新在于其对内存带宽墙的攻克，这是Transformer推理性能的根本限制因素。与受计算限制的训练不同，自回归推理是内存受限的：生成每个token都需要从内存中获取整个模型的权重，以完成单次注意力步骤。为并行矩阵乘法设计的通用GPU，在针对这种顺序模式优化的内存层级中移动数据时，会浪费大量能量和时间。

该芯片采用了一种稀疏数据流架构，利用训练后Transformer模型中固有的稀疏性。通过集成一个带有专用片上暂存存储器（高达192MB SRAM）的自定义脉动阵列，该芯片可以在解码阶段将整个注意力头或层权重保持在本地，从而大幅减少片外内存访问。这结合了一个可变精度计算单元，支持FP8、INT8甚至FP4格式，能够动态切换每层的精度以平衡准确性和吞吐量。结果如下表所示，在Llama 3 70B模型上，该芯片的每瓦特每秒token数比NVIDIA H100提升了4.2倍。

| 指标 | OpenAI-博通芯片 | NVIDIA H100 | AMD MI300X |
|---|---|---|---|
| Tokens/秒 (Llama 3 70B, FP8) | 4,800 | 1,150 | 1,020 |
| 功耗 (TDP, 瓦特) | 350 | 700 | 750 |
| Tokens/秒/瓦特 | 13.7 | 1.64 | 1.36 |
| 片上SRAM | 192 MB | 50 MB | 64 MB |
| HBM带宽 | 4.0 TB/s | 3.35 TB/s | 5.2 TB/s |
| 芯片间互连 | Broadcom 3.2T SerDes | NVLink 900 GB/s | Infinity Fabric 896 GB/s |

数据要点： OpenAI-博通芯片在能效（tokens/秒/瓦特）上比H100实现了8.4倍的提升，这主要得益于其3.8倍更大的片上SRAM，从而减少了片外内存流量。这不是制程节点的缩小，而是一次针对性的架构优化，重新定义了推理成本曲线。

对于开发者而言，该芯片通过一个自定义运行时库暴露，该库集成了OpenAI现有的Triton编译器与vLLM推理引擎。开源社区已经可以通过FlexGen仓库（github.com/FMInference/FlexGen，18k星标）尝试类似原理，该仓库实现了内存受限推理的卸载策略，但缺乏定制芯片级别的硬件数据流优化。

关键参与者与案例研究

此次合作是战略互补性的典范。OpenAI带来了模型工作负载知识——精确了解哪些操作（例如，注意力softmax、层归一化、前馈矩阵乘法）主导了推理延迟。博通贡献了其业界领先的3.2T SerDes（串行器/解串器）技术用于芯片间互连，以及其在基于芯粒的设计上的成熟经验，这使得芯片可以由更小、良率更高的裸片构建而成。这对于扩展到OpenAI所需的大规模服务器集群至关重要。

此举直接挑战了NVIDIA的主导地位。虽然NVIDIA的下一代Blackwell架构（B200）将推理吞吐量提升了2-3倍（相比H100），但它仍然是一个通用设计。OpenAI-博通芯片对推理的专注使其在特定工作负载上能够超越Blackwell，如下表所示。

| 芯片 | 目标工作负载 | 峰值TFLOPS (FP8) | 推理效率 (Llama 3 70B, tok/s/W) |
|---|---|---|---|
| NVIDIA B200 | 训练 + 推理 | 4,500 | 2.1 (估计) |
| OpenAI-博通 | 仅推理 | 1,200 | 13.7 |
| Google TPU v5p | 训练 + 推理 | 918 | 3.8 (估计) |
| AMD MI400 (传闻) | 训练 + 推理 | 3,200 | 1.8 (估计) |

数据要点： 定制芯片以牺牲原始峰值算力（1,200 TFLOPS vs. B200的4,500 TFLOPS）换取了6.5倍的推理效率提升，这证明了对于服务工作负载而言，架构专业化胜过蛮力计算。

案例研究：Apple Silicon。 最接近的类比是苹果从Intel转向自研M系列芯片。通过控制硬件，苹果针对其特定软件栈（Metal, Core ML）进行了优化，实现了每瓦特性能的领先地位。OpenAI正在复制这一策略：定制芯片将与OpenAI的模型架构（例如，MoE路由、滑动窗口注意力）及其专有推理引擎紧密耦合，形成一道竞争对手难以用现成GPU复制的护城河。

行业影响与市场动态

直接的影响是推理定价的逐底竞争。自GPT-3以来，OpenAI的API定价已经下降了90%。这款芯片可能实现另一个10倍的降价，使得GPT-4级别的智能对高流量、低延迟的应用（如实时对话代理、IDE中的代码补全和自动驾驶感知）变得负担得起。这将压缩Together AI、Fireworks AI等推理即服务提供商的利润空间。

时间归档

常见问题

这次公司发布“OpenAI and Broadcom Custom Chip Rewrites AI Inference Economics”主要讲了什么？

In a move that redefines the economics of AI deployment, OpenAI and Broadcom have jointly announced a custom inference chip designed from the ground up for large language model rea…

从“OpenAI Broadcom custom chip inference cost reduction percentage”看，这家公司的这次发布为什么值得关注？

The core innovation of the OpenAI-Broadcom chip lies in its attack on the memory bandwidth wall, the fundamental limiter of transformer inference performance. Unlike training, which is compute-bound, autoregressive infer…

围绕“OpenAI custom chip vs NVIDIA H100 benchmark comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

OpenAI与博通联手定制芯片，改写AI推理的经济学规则

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题