OpenAI与博通联手打造「Jalapeño」芯片:AI推理硅片改写游戏规则

Hacker News June 2026
来源:Hacker News归档:June 2026
OpenAI与博通联合发布定制推理芯片「Jalapeño」,专为大语言模型工作负载设计。这标志着从通用GPU向专用硅片的决定性转向,有望在吞吐量和能效上实现飞跃,同时降低对单一硬件供应商的依赖。

OpenAI与博通推出的「Jalapeño」芯片并非一次简单的硬件升级,而是一份摆脱GPU主导格局的战略独立宣言。多年来,AI行业一直依赖英伟达的通用GPU,但随着模型规模膨胀,这一模式日益低效。Jalapeño是一款专为推理设计的加速器,将芯片微架构与OpenAI的Transformer模型进行协同设计,针对主导LLM推理的特定内存访问模式和注意力机制进行优化。其直接回报是预计每token功耗提升3-5倍,直接转化为ChatGPT及未来智能体系统运营成本的降低。但更深层的故事在于垂直整合:OpenAI正在构建从算法到硅片的闭环,打破传统供应链的束缚。

技术深度解析

Jalapeño是协同优化的典范。与英伟达H100或B200不同——后者需处理训练、推理、图形、科学计算等广泛工作负载——Jalapeño是一款窄聚焦、激光般精准的推理引擎。其架构围绕三大核心创新:

1. 稀疏注意力加速: Transformer推理的核心是注意力机制,涉及计算序列中每对token之间的注意力分数。这受限于内存带宽而非计算能力。Jalapeño集成了专用于稀疏注意力模式的硬件——具体而言,它利用自定义脉动阵列处理密集与2:4结构化稀疏性,可跳过零或接近零的注意力权重。对于长上下文序列,这可将内存读取量减少高达60%。

2. KV缓存的统一内存层次: 在自回归解码过程中,键值(KV)缓存是最大的内存消耗者。Jalapeño采用新颖的三层内存架构:一个超快的小型SRAM暂存器(2MB)用于最近token,一个中端HBM3e堆栈(80GB,带宽3.6 TB/s)用于完整缓存,以及一个专用片上压缩引擎,利用学习量化方案(FP8配合每头缩放)将缓存大小缩减50%且不损失精度。这缓解了内存墙瓶颈。

3. 动态精度调度: 该芯片在推理过程中可逐层在FP8、INT8和INT4精度之间切换。一个轻量级运行时分析器监控每层对量化噪声的敏感度,并实时调整精度。例如,早期嵌入层以FP8运行,而深层前馈层可安全降至INT4,相比静态量化方法带来2倍吞吐量提升。

开源参考: 尽管Jalapeño本身是专有技术,但其协同设计理念与开源项目Gemmini(GitHub: UC Berkeley ASPIRE Lab)的概念相呼应。Gemmini是一个全栈DNN加速器生成器,拥有1200+星标,为基于脉动阵列的推理加速器提供参数化模板。Jalapeño很可能将Gemmini类原理与针对Transformer工作负载的自定义内存控制器相结合。

基准性能(预计 vs. H100):

| 指标 | NVIDIA H100 (SXM) | Jalapeño (预估) | 提升幅度 |
|---|---|---|---|
| Token/秒 (Llama 3 70B, batch=1) | 45 | 210 | 4.7倍 |
| Token/秒 (GPT-4级别, batch=32) | 1,200 | 5,800 | 4.8倍 |
| 每token功耗 (Llama 3 70B) | 15.2 µJ | 3.1 µJ | 4.9倍 |
| 峰值内存带宽 | 3.35 TB/s | 3.6 TB/s | 7% |
| 片上SRAM | 50 MB | 2 MB (仅暂存器) | — |
| 精度支持 | FP8/INT8 | FP8/INT8/INT4 | — |

数据要点: batch=1时4.7倍的吞吐量提升是核心数字。这对ChatGPT语音模式或智能体循环等实时应用至关重要——每token低延迟是重中之重。能效提升(4.9倍)直接转化为更低的云运营成本,这是OpenAI盈利能力的关键因素。

---

关键参与者与案例研究

OpenAI 提供算法端专业知识:对Transformer架构、注意力机制以及关键推理工作负载的深刻理解。该公司自2022年起悄然组建内部芯片团队,从苹果A系列芯片团队和谷歌TPU部门挖角工程师。Jalapeño是这一努力的初步成果。

博通 提供物理设计、封装和高量产制造专长。博通在定制ASIC设计(面向网络和超大规模数据中心)方面实力雄厚——他们已为谷歌(TPU v4/v5)和Meta设计芯片。其3D-IC封装技术(采用混合键合)使Jalapeño能够将HBM3e内存直接堆叠在计算芯片之上,相比传统中介层延迟降低30%。

竞争格局:

| 公司 | 芯片 | 重点 | 状态 | 关键指标 |
|---|---|---|---|---|
| OpenAI + 博通 | Jalapeño | LLM推理 | 已发布 (2026) | 4.7倍 vs H100 |
| 谷歌 | TPU v5p | 训练 + 推理 | 生产中 | 2.5倍 vs TPU v4 |
| 亚马逊 | Trainium2 | 训练 | 生产中 | 2倍 vs Trainium1 |
| 微软 | Maia 100 | 推理 | 已发布 (2025) | 3倍 vs H100 (声称) |
| Groq | LPU | 推理 (低延迟) | 生产中 | 每token 0.5ms |
| Cerebras | CS-3 | 训练 + 推理 | 生产中 | 晶圆级 |

数据要点: OpenAI并非首家构建定制芯片的超大规模企业,但它是首家纯AI公司这样做。谷歌和亚马逊构建芯片以服务自家云客户;微软的Maia与Azure绑定。Jalapeño的独特之处在于它专为OpenAI自有模型设计,形成了竞争对手难以复制的紧密反馈循环。

案例研究:Groq的LPU 是一个有启发性的对比。Groq的语言处理单元在Llama 2 70B上实现了每token 0.5ms的延迟,但它使用

更多来自 Hacker News

RubyLLM统一AI模型:Ruby开发者重掌AI未来RubyLLM不仅仅是一个封装库——它是对多供应商AI开发混乱局面的一种深思熟虑的架构回应。通过提供一致的抽象层来处理请求路由、参数标准化和错误重试,它让Ruby开发者能够专注于业务逻辑,而非SDK的古怪特性。该框架原生支持流式输出和工具调Orchid开源调试器:揭开AI Agent黑箱的神秘面纱AINews发现了一款名为Orchid的开源Agent调试器,它像一个被动代理,记录AI Agent流水线中的每一个决策——从LLM调用到工具使用——且无需修改任何代码。所有数据均保留在本地,规避了隐私风险与供应商锁定问题。该工具包含一个可AI成本危机:企业如何砍掉模型推理账单,终结烧钱时代AI无限烧钱的蜜月期结束了。AINews追踪发现,一场结构性危机正席卷全球企业:大规模部署大语言模型的边际成本远高于任何供应商的预测。每一次API调用、每一次微调运行、每一个智能体循环,都在蚕食利润空间。CFO们现在要求每一分AI投入都有明查看来源专题页Hacker News 已收录 5164 篇文章

时间归档

June 20262467 篇已发布文章

延伸阅读

AI成本危机:企业如何砍掉模型推理账单,终结烧钱时代一场无声的恐慌正在企业董事会蔓延——AI部署成本远超预期。AINews独家揭秘:从重新谈判云合同到自建推理引擎,企业正发起前所未有的降本行动。这标志着AI无限预算时代的终结,一场残酷的效率竞赛已然开启。缓存感知路由:LLM推理成本套利的隐藏金矿大语言模型推理成本优化迎来新前沿:缓存感知路由。通过智能地将查询导向已预热缓存的模型实例,企业可在不牺牲质量的前提下将推理成本削减高达60%,将延迟感知路由转化为强大的套利工具,有望重塑AI基础设施的经济格局。AutoMegaKernel:将整个大语言模型编译为单一可验证CUDA内核,颠覆推理范式AutoMegaKernel将整个大语言模型编译成一个单一的、可形式化验证的CUDA巨型内核,彻底消除内核启动开销,并实现激进优化。这标志着AI推理从碎片化加速向整体重构的范式转变。编译器战争:重塑LLM推理经济学的隐形力量当AI行业痴迷于更大模型和更快GPU时,一场机器学习编译器的静默革命正以2-3倍的推理加速改写规则,且无需任何硬件升级。AINews深入探究内核融合、内存层次优化与自动张量布局变换如何重塑LLM部署的经济学。

常见问题

这次公司发布“OpenAI and Broadcom's Jalapeño Chip: AI Inference Silicon Rewrites the Rules”主要讲了什么?

OpenAI and Broadcom's 'Jalapeño' chip is not a minor hardware refresh; it is a strategic declaration of independence from the GPU-centric status quo. For years, the AI industry has…

从“OpenAI Jalapeño chip vs NVIDIA H100 inference benchmark comparison”看,这家公司的这次发布为什么值得关注?

Jalapeño is a study in co-optimization. Unlike NVIDIA's H100 or B200, which are designed to handle a broad spectrum of compute workloads (training, inference, graphics, scientific computing), Jalapeño is a narrow, laser-…

围绕“Broadcom custom ASIC design for AI inference cost and timeline”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。