OpenAI与博通联手打造「Jalapeño」芯片：AI推理硅片改写游戏规则

2026年6月24日 21:32 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

OpenAI与博通联合发布定制推理芯片「Jalapeño」，专为大语言模型工作负载设计。这标志着从通用GPU向专用硅片的决定性转向，有望在吞吐量和能效上实现飞跃，同时降低对单一硬件供应商的依赖。

OpenAI与博通推出的「Jalapeño」芯片并非一次简单的硬件升级，而是一份摆脱GPU主导格局的战略独立宣言。多年来，AI行业一直依赖英伟达的通用GPU，但随着模型规模膨胀，这一模式日益低效。Jalapeño是一款专为推理设计的加速器，将芯片微架构与OpenAI的Transformer模型进行协同设计，针对主导LLM推理的特定内存访问模式和注意力机制进行优化。其直接回报是预计每token功耗提升3-5倍，直接转化为ChatGPT及未来智能体系统运营成本的降低。但更深层的故事在于垂直整合：OpenAI正在构建从算法到硅片的闭环，打破传统供应链的束缚。

技术深度解析

Jalapeño是协同优化的典范。与英伟达H100或B200不同——后者需处理训练、推理、图形、科学计算等广泛工作负载——Jalapeño是一款窄聚焦、激光般精准的推理引擎。其架构围绕三大核心创新：

1. 稀疏注意力加速： Transformer推理的核心是注意力机制，涉及计算序列中每对token之间的注意力分数。这受限于内存带宽而非计算能力。Jalapeño集成了专用于稀疏注意力模式的硬件——具体而言，它利用自定义脉动阵列处理密集与2:4结构化稀疏性，可跳过零或接近零的注意力权重。对于长上下文序列，这可将内存读取量减少高达60%。

2. KV缓存的统一内存层次： 在自回归解码过程中，键值（KV）缓存是最大的内存消耗者。Jalapeño采用新颖的三层内存架构：一个超快的小型SRAM暂存器（2MB）用于最近token，一个中端HBM3e堆栈（80GB，带宽3.6 TB/s）用于完整缓存，以及一个专用片上压缩引擎，利用学习量化方案（FP8配合每头缩放）将缓存大小缩减50%且不损失精度。这缓解了内存墙瓶颈。

3. 动态精度调度： 该芯片在推理过程中可逐层在FP8、INT8和INT4精度之间切换。一个轻量级运行时分析器监控每层对量化噪声的敏感度，并实时调整精度。例如，早期嵌入层以FP8运行，而深层前馈层可安全降至INT4，相比静态量化方法带来2倍吞吐量提升。

开源参考： 尽管Jalapeño本身是专有技术，但其协同设计理念与开源项目Gemmini（GitHub: UC Berkeley ASPIRE Lab）的概念相呼应。Gemmini是一个全栈DNN加速器生成器，拥有1200+星标，为基于脉动阵列的推理加速器提供参数化模板。Jalapeño很可能将Gemmini类原理与针对Transformer工作负载的自定义内存控制器相结合。

基准性能（预计 vs. H100）：

| 指标 | NVIDIA H100 (SXM) | Jalapeño (预估) | 提升幅度 |
|---|---|---|---|
| Token/秒 (Llama 3 70B, batch=1) | 45 | 210 | 4.7倍 |
| Token/秒 (GPT-4级别, batch=32) | 1,200 | 5,800 | 4.8倍 |
| 每token功耗 (Llama 3 70B) | 15.2 µJ | 3.1 µJ | 4.9倍 |
| 峰值内存带宽 | 3.35 TB/s | 3.6 TB/s | 7% |
| 片上SRAM | 50 MB | 2 MB (仅暂存器) | — |
| 精度支持 | FP8/INT8 | FP8/INT8/INT4 | — |

数据要点： batch=1时4.7倍的吞吐量提升是核心数字。这对ChatGPT语音模式或智能体循环等实时应用至关重要——每token低延迟是重中之重。能效提升（4.9倍）直接转化为更低的云运营成本，这是OpenAI盈利能力的关键因素。

---

关键参与者与案例研究

OpenAI 提供算法端专业知识：对Transformer架构、注意力机制以及关键推理工作负载的深刻理解。该公司自2022年起悄然组建内部芯片团队，从苹果A系列芯片团队和谷歌TPU部门挖角工程师。Jalapeño是这一努力的初步成果。

博通提供物理设计、封装和高量产制造专长。博通在定制ASIC设计（面向网络和超大规模数据中心）方面实力雄厚——他们已为谷歌（TPU v4/v5）和Meta设计芯片。其3D-IC封装技术（采用混合键合）使Jalapeño能够将HBM3e内存直接堆叠在计算芯片之上，相比传统中介层延迟降低30%。

竞争格局：

| 公司 | 芯片 | 重点 | 状态 | 关键指标 |
|---|---|---|---|---|
| OpenAI + 博通 | Jalapeño | LLM推理 | 已发布 (2026) | 4.7倍 vs H100 |
| 谷歌 | TPU v5p | 训练 + 推理 | 生产中 | 2.5倍 vs TPU v4 |
| 亚马逊 | Trainium2 | 训练 | 生产中 | 2倍 vs Trainium1 |
| 微软 | Maia 100 | 推理 | 已发布 (2025) | 3倍 vs H100 (声称) |
| Groq | LPU | 推理 (低延迟) | 生产中 | 每token 0.5ms |
| Cerebras | CS-3 | 训练 + 推理 | 生产中 | 晶圆级 |

数据要点： OpenAI并非首家构建定制芯片的超大规模企业，但它是首家纯AI公司这样做。谷歌和亚马逊构建芯片以服务自家云客户；微软的Maia与Azure绑定。Jalapeño的独特之处在于它专为OpenAI自有模型设计，形成了竞争对手难以复制的紧密反馈循环。

案例研究：Groq的LPU 是一个有启发性的对比。Groq的语言处理单元在Llama 2 70B上实现了每token 0.5ms的延迟，但它使用

时间归档

常见问题

这次公司发布“OpenAI and Broadcom's Jalapeño Chip: AI Inference Silicon Rewrites the Rules”主要讲了什么？

OpenAI and Broadcom's 'Jalapeño' chip is not a minor hardware refresh; it is a strategic declaration of independence from the GPU-centric status quo. For years, the AI industry has…

从“OpenAI Jalapeño chip vs NVIDIA H100 inference benchmark comparison”看，这家公司的这次发布为什么值得关注？

Jalapeño is a study in co-optimization. Unlike NVIDIA's H100 or B200, which are designed to handle a broad spectrum of compute workloads (training, inference, graphics, scientific computing), Jalapeño is a narrow, laser-…

围绕“Broadcom custom ASIC design for AI inference cost and timeline”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

OpenAI与博通联手打造「Jalapeño」芯片：AI推理硅片改写游戏规则

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题