OpenAI Jalapeño芯片:垂直整合重塑AI推理经济学

Hacker News June 2026
来源:Hacker News归档:June 2026
OpenAI携手Broadcom推出首款自研AI推理芯片Jalapeño,专为Transformer模型设计,目标是将推理成本降低一个数量级并大幅削减延迟。这标志着从依赖NVIDIA GPU向全栈垂直整合的战略性转折。

OpenAI发布与Broadcom联合开发的Jalapeño推理芯片,标志着其从依赖GPU的模式向垂直整合的硬件-软件栈的战略转型。该芯片专为基于Transformer的推理而设计,采用定制内存层次结构、稀疏计算支持以及专用张量核心架构。早期内部基准测试显示,与同等NVIDIA H100部署相比,每token成本降低10倍,延迟提升3倍。此举使OpenAI能够将其扩展轨迹从NVIDIA的供应限制和定价权中解耦。更重要的是,它实现了模型架构与硅片之间的深度协同优化,为依赖现成硬件的竞争对手构筑了难以复制的护城河。

技术深度解析

Jalapeño芯片并非通用GPU,而是一款专注于Transformer推理的领域专用加速器(DSA)。其核心是一个针对注意力机制中密集矩阵乘法优化的脉动阵列。与NVIDIA为跨多种模型架构的混合精度训练和推理设计的Tensor Cores不同,Jalapeño的张量引擎专为GPT风格自回归解码器中的精确数据流模式而硬连线。

内存架构: 该芯片采用三层内存层次结构:用于注意力分数和KV缓存的小型超快片上SRAM(暂存器)、用于模型权重的高带宽HBM3e堆栈,以及一个动态跳过零值激活的新型“稀疏缓存”。这种设计直接解决了自回归生成的内存密集型特性——瓶颈通常在于将权重从HBM移动到计算单元。通过集成专用KV缓存控制器,Jalapeño将关键“预填充”阶段的延迟降低了约40%。

稀疏计算支持: 该芯片包含用于结构化稀疏的专用硬件,这是一种剪枝整个权重块的技术。OpenAI很可能与芯片共同设计了稀疏模式,使Jalapeño在50%稀疏度的模型上实现2倍有效吞吐量。这相较于NVIDIA的Ampere和Hopper架构是一个显著优势,后者对非结构化稀疏的支持效率较低。

基准测试性能:

| 指标 | NVIDIA H100 (FP8) | OpenAI Jalapeño (FP8) | 提升幅度 |
|---|---|---|---|
| 延迟(每token,GPT-4级模型) | 35 ms | 12 ms | 2.9倍 |
| 吞吐量(token/秒/芯片) | 1,200 | 4,500 | 3.75倍 |
| 每百万token成本(估算) | $0.60 | $0.06 | 10倍 |
| 功耗(峰值) | 700W | 450W | 降低36% |
| KV缓存容量(每芯片) | 128 GB | 256 GB | 2倍 |

数据要点: 10倍成本降低是头条数字,但2倍KV缓存容量同样具有变革性。它支持更长的上下文窗口(例如100万token),而无需诉诸昂贵的内存分解,直接赋能全文档分析和扩展型智能体工作流等新用例。

相关开源项目: 尽管Jalapeño是专有的,但开源社区正在探索类似思路。来自Anyscale(现为Ray)的[LLM-inference](https://github.com/ray-project/llm-inference)仓库(3.2k星)专注于优化KV缓存管理。[vLLM](https://github.com/vllm-project/vllm)项目(28k星)首创了PagedAttention,这是一种在软件层面实现与Jalapeño硬件KV缓存控制器类似内存效率的技术。Jalapeño的架构本质上将vLLM的软件创新固化到了硅片中。

关键参与者与案例研究

OpenAI: 主要受益者。通过拥有硅片,OpenAI现在可以提供具有保证延迟和吞吐量的API层级,这成为对抗依赖TPU和GPU的竞争对手(如Anthropic的Claude和Google的Gemini)的差异化优势。OpenAI与Broadcom的合作利用了Broadcom在高速互连和定制ASIC设计方面的专长,这一关系自2023年以来一直在悄然发展。

Broadcom: 芯片的联合设计者和制造商。Broadcom将其Tomahawk交换技术用于芯片间互连,并采用3nm设计流程。这一合作表明Broadcom立志成为首选定制AI芯片合作伙伴,与Marvell和Alchip竞争。消息公布后,Broadcom股价上涨8%。

NVIDIA: 直接受损方。尽管NVIDIA的H100和B200在训练领域仍将占据主导地位,但推理市场——预计到2027年将占AI计算需求的70%——现已受到挑战。NVIDIA的回应可能涉及与CUDA的更紧密集成以及在推理特定功能上的更快迭代,但NVIDIA建立的硬件-软件协同优化护城河如今正被其最大客户所复制。

竞争性定制芯片:

| 公司 | 芯片 | 重点 | 状态 |
|---|---|---|---|
| OpenAI/Broadcom | Jalapeño | Transformer推理 | 已发布,2025年Q4量产 |
| Google | TPU v6 | 训练与推理 | 内部部署 |
| Amazon | Trainium 2 | 训练 | 通过AWS可用 |
| Microsoft | Maia 100 | 推理 | 为Copilot部署 |
| Meta | MTIA v2 | 推荐与推理 | 开发中 |

数据要点: 定制芯片竞赛正在分化。Google和Amazon专注于训练和推理,而OpenAI、Microsoft和Meta则优先考虑推理。这表明市场共识是:推理而非训练,将成为未来几年主要的计算成本。

行业影响与市场动态

Jalapeño芯片是对NVIDIA在AI加速器领域80%以上市场份额的直接冲击。推理市场在2024年估值为180亿美元,预计到2028年将增长至850亿美元(来源:基于半导体行业数据的AINews内部分析)。

更多来自 Hacker News

ccMarvin:转发邮件即召唤AI代理,工作流革命从收件箱开始ccMarvin是一款完全运行在电子邮件内的新型AI工具。用户将邮件线程转发给ccMarvin,其背后的大语言模型(LLM)便会返回结构化响应——无论是简洁摘要、SAFE票据的风险标记分析,还是条款清单的逐项拆解。该产品由资深工程师MichAI发现危机:为什么你的产品在ChatGPT和Perplexity面前隐形这一发现凸显了数字商业的结构性转变。一位开发者注意到,他的两款产品——一款是流行的SaaS工具,另一款是垂直小众的实用工具——从ChatGPT和Perplexity等AI聊天机器人获得的推荐流量截然不同。前者每月有数千次访问,后者几乎为零。GPT-Image 2 嵌入 Codex:当图像生成成为编程原生基元AINews 确认,GPT-Image 2 正被直接嵌入 Codex 工作流,这一举措从根本上将图像生成从孤立工具重新定位为软件开发管道的原生组件。该集成允许开发者在与代码生成相同的提示流中生成 UI 模型、架构图和文档视觉素材,消除了编码查看来源专题页Hacker News 已收录 5174 篇文章

时间归档

June 20262482 篇已发布文章

延伸阅读

Anthropic重构处理器供应链:AI基础设施军备竞赛进入新阶段Anthropic近期对其辅助处理器供应链的战略调整,远不止一次技术升级。这标志着AI巨头正从算法竞赛转向对计算栈的全面掌控,预示着下一轮AI突破将取决于谁能主导从芯片到云端的完整基础设施生态。GateGPT 用 80MHz FPGA 跑出 56K Tokens/s:边缘 AI 推理正在重写硬件等级制度GateGPT 在仅 80MHz 的 FPGA 上实现了每秒 56,000 个 token 的 Transformer 推理,彻底颠覆了“高主频与大规模并行计算是部署大模型前提”的传统认知。这一突破的核心在于一种全新的 KV 缓存设计,它消OpenAI对决英伟达:四千亿美元豪赌,谁能主宰AI推理王座?人工智能产业正见证一场史无前例的资本军备竞赛。OpenAI与英伟达据称各自调动约2000亿美元,这场总额近4000亿美元的豪赌,标志着行业战略重心已从单纯堆叠算力规模,转向攻克AI推理的核心堡垒——即让机器学会思考、规划与理解因果。马克的魔法乘法:一场瞄准AI计算核心的算法革命一种被非正式称为'马克的魔法乘法'的全新计算范式正在浮现,有望成为AI效率领域的颠覆性力量。该方法旨在从根本上重构Transformer模型核心的稠密矩阵乘法运算,承诺带来训练和推理速度的数量级提升,同时大幅降低前沿AI开发的资源门槛。

常见问题

这次公司发布“OpenAI Jalapeño Chip: Vertical Integration Reshapes AI Inference Economics”主要讲了什么?

OpenAI's launch of the Jalapeño inference chip, co-developed with Broadcom, represents a strategic pivot from a GPU-dependent model to a vertically integrated hardware-software sta…

从“OpenAI Jalapeño chip vs NVIDIA B200 inference benchmark comparison”看,这家公司的这次发布为什么值得关注?

The Jalapeño chip is not a general-purpose GPU but a domain-specific accelerator (DSA) laser-focused on Transformer inference. At its core lies a systolic array optimized for the matrix-multiplication-heavy attention mec…

围绕“How OpenAI Jalapeño chip reduces AI inference costs by 10x”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。