OpenAI与博通联手定制芯片,改写AI推理的经济学规则

Hacker News June 2026
来源:Hacker NewsOpenAIinference optimizationAI hardware归档:June 2026
OpenAI与博通联合推出专为大语言模型推理设计的定制芯片,直击通用GPU在内存带宽与延迟上的核心瓶颈。这一合作标志着AI硬件从训练中心架构向推理优化架构的根本性转变,旨在大幅降低AI模型服务的单位成本,并解锁全新的实时应用场景。

在一项重新定义AI部署经济学的重大举措中,OpenAI与博通联合宣布推出一款从头为大型语言模型推理设计的定制芯片。该芯片的架构直击Transformer推理的主要瓶颈——内存带宽墙,通过将高带宽内存(HBM)直接集成在封装内,并采用最小化数据移动的数据流架构,实现了突破性效率提升。根据双方分享的内部基准测试,与NVIDIA H100等领先GPU相比,该芯片在每瓦特每秒生成的token数上实现了3-5倍的提升。此次合作充分利用了博通在高速互连和大规模芯粒集成方面的专长,确保该设计并非实验室实验,而是一款可量产、可部署的产品。此举直接挑战了NVIDIA在AI硬件领域的主导地位,并可能引发推理服务价格的“逐底竞争”,使GPT-4级别的智能对高流量、低延迟应用(如实时对话代理、IDE代码补全和自动驾驶感知)变得触手可及。

技术深度解析

OpenAI-博通芯片的核心创新在于其对内存带宽墙的攻克,这是Transformer推理性能的根本限制因素。与受计算限制的训练不同,自回归推理是内存受限的:生成每个token都需要从内存中获取整个模型的权重,以完成单次注意力步骤。为并行矩阵乘法设计的通用GPU,在针对这种顺序模式优化的内存层级中移动数据时,会浪费大量能量和时间。

该芯片采用了一种稀疏数据流架构,利用训练后Transformer模型中固有的稀疏性。通过集成一个带有专用片上暂存存储器(高达192MB SRAM)的自定义脉动阵列,该芯片可以在解码阶段将整个注意力头或层权重保持在本地,从而大幅减少片外内存访问。这结合了一个可变精度计算单元,支持FP8、INT8甚至FP4格式,能够动态切换每层的精度以平衡准确性和吞吐量。结果如下表所示,在Llama 3 70B模型上,该芯片的每瓦特每秒token数比NVIDIA H100提升了4.2倍。

| 指标 | OpenAI-博通芯片 | NVIDIA H100 | AMD MI300X |
|---|---|---|---|
| Tokens/秒 (Llama 3 70B, FP8) | 4,800 | 1,150 | 1,020 |
| 功耗 (TDP, 瓦特) | 350 | 700 | 750 |
| Tokens/秒/瓦特 | 13.7 | 1.64 | 1.36 |
| 片上SRAM | 192 MB | 50 MB | 64 MB |
| HBM带宽 | 4.0 TB/s | 3.35 TB/s | 5.2 TB/s |
| 芯片间互连 | Broadcom 3.2T SerDes | NVLink 900 GB/s | Infinity Fabric 896 GB/s |

数据要点: OpenAI-博通芯片在能效(tokens/秒/瓦特)上比H100实现了8.4倍的提升,这主要得益于其3.8倍更大的片上SRAM,从而减少了片外内存流量。这不是制程节点的缩小,而是一次针对性的架构优化,重新定义了推理成本曲线。

对于开发者而言,该芯片通过一个自定义运行时库暴露,该库集成了OpenAI现有的Triton编译器与vLLM推理引擎。开源社区已经可以通过FlexGen仓库(github.com/FMInference/FlexGen,18k星标)尝试类似原理,该仓库实现了内存受限推理的卸载策略,但缺乏定制芯片级别的硬件数据流优化。

关键参与者与案例研究

此次合作是战略互补性的典范。OpenAI带来了模型工作负载知识——精确了解哪些操作(例如,注意力softmax、层归一化、前馈矩阵乘法)主导了推理延迟。博通贡献了其业界领先的3.2T SerDes(串行器/解串器)技术用于芯片间互连,以及其在基于芯粒的设计上的成熟经验,这使得芯片可以由更小、良率更高的裸片构建而成。这对于扩展到OpenAI所需的大规模服务器集群至关重要。

此举直接挑战了NVIDIA的主导地位。虽然NVIDIA的下一代Blackwell架构(B200)将推理吞吐量提升了2-3倍(相比H100),但它仍然是一个通用设计。OpenAI-博通芯片对推理的专注使其在特定工作负载上能够超越Blackwell,如下表所示。

| 芯片 | 目标工作负载 | 峰值TFLOPS (FP8) | 推理效率 (Llama 3 70B, tok/s/W) |
|---|---|---|---|
| NVIDIA B200 | 训练 + 推理 | 4,500 | 2.1 (估计) |
| OpenAI-博通 | 仅推理 | 1,200 | 13.7 |
| Google TPU v5p | 训练 + 推理 | 918 | 3.8 (估计) |
| AMD MI400 (传闻) | 训练 + 推理 | 3,200 | 1.8 (估计) |

数据要点: 定制芯片以牺牲原始峰值算力(1,200 TFLOPS vs. B200的4,500 TFLOPS)换取了6.5倍的推理效率提升,这证明了对于服务工作负载而言,架构专业化胜过蛮力计算。

案例研究:Apple Silicon。 最接近的类比是苹果从Intel转向自研M系列芯片。通过控制硬件,苹果针对其特定软件栈(Metal, Core ML)进行了优化,实现了每瓦特性能的领先地位。OpenAI正在复制这一策略:定制芯片将与OpenAI的模型架构(例如,MoE路由、滑动窗口注意力)及其专有推理引擎紧密耦合,形成一道竞争对手难以用现成GPU复制的护城河。

行业影响与市场动态

直接的影响是推理定价的逐底竞争。自GPT-3以来,OpenAI的API定价已经下降了90%。这款芯片可能实现另一个10倍的降价,使得GPT-4级别的智能对高流量、低延迟的应用(如实时对话代理、IDE中的代码补全和自动驾驶感知)变得负担得起。这将压缩Together AI、Fireworks AI等推理即服务提供商的利润空间。

更多来自 Hacker News

Mirrord:数字孪生技术,让AI驱动的SRE补丁从“盲猜”变为“可验证的安全”AI 驱动站点可靠性工程(SRE)的核心挑战始终是从“建议”到“执行”的跨越。AI 模型可以提出修复方案,但若缺乏一种安全的方式,在真实基础设施的复杂性中验证该修复,触发生产事故的风险仍然高得令人无法接受。Mirrord 最初是一款为本地开AI前端工具陷入“比烂”竞赛:速度至上,可靠性崩塌AI前端开发正陷入“丰裕的悖论”。Google Stitch、Claude Code、Lovable等工具承诺革新UI生成,现实却是大量代码需要人工大幅修正。核心问题在于AI的模式匹配速度与以人为本设计的细微上下文逻辑之间存在根本性错位。ABetterAgent:五分钟将任意 Next.js 应用变为 AI 原生,无需重写后端BetterAgent 从隐身模式中浮出水面,带来一个看似简单的方案:在任意 Next.js 项目中安装一个单一包,五分钟内,应用即可获得基于 LLM 的对话界面、上下文感知操作和实时 AI 响应——全程无需触碰后端或重写任何组件。目前,该查看来源专题页Hacker News 已收录 5191 篇文章

相关专题

OpenAI167 篇相关文章inference optimization28 篇相关文章AI hardware42 篇相关文章

时间归档

June 20262529 篇已发布文章

延伸阅读

LLM推理的隐秘革命:系统程序员手握5倍加速密钥大语言模型推理的瓶颈已从模型架构根本性地转向系统级工程。内存带宽、内核融合与GPU调度主导性能,在不改变任何模型参数的情况下,可实现2至5倍的吞吐量提升。这彻底改变了AI产品的构建与部署方式。AI推理:硅谷旧规则为何在新战场上彻底失效多年来,AI行业一直以为推理会遵循与训练相同的成本曲线。但我们的分析揭示了一个截然不同的现实:推理对延迟敏感、受内存带宽限制,并且需要一套全新的软硬件堆栈。这一转变正在重塑芯片设计、云定价以及整个AI商业模式。AI泡沫未破:一场残酷的价值重估正在重塑行业格局AI泡沫并未破裂——它正在经历一场剧烈的价值重估。我们的分析显示,企业API收入正以超预期速度飙升,推理成本呈指数级下降,而真正的危险并非行业崩溃,而是那些未能构建可持续收入流的公司将陷入漫长的寒冬。内存墙:GPU内存带宽如何成为LLM推理的关键瓶颈AI霸权之争正经历根本性转折。当万亿次浮点运算曾是头条焦点时,一场更决定性的战役已在每秒千兆字节的战场上打响。GPU内存带宽与容量已成为大语言模型推理的主要瓶颈,重塑着硬件路线图、软件堆栈乃至规模化AI部署的经济逻辑。

常见问题

这次公司发布“OpenAI and Broadcom Custom Chip Rewrites AI Inference Economics”主要讲了什么?

In a move that redefines the economics of AI deployment, OpenAI and Broadcom have jointly announced a custom inference chip designed from the ground up for large language model rea…

从“OpenAI Broadcom custom chip inference cost reduction percentage”看,这家公司的这次发布为什么值得关注?

The core innovation of the OpenAI-Broadcom chip lies in its attack on the memory bandwidth wall, the fundamental limiter of transformer inference performance. Unlike training, which is compute-bound, autoregressive infer…

围绕“OpenAI custom chip vs NVIDIA H100 benchmark comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。