技术深度解析
Jalapeño是协同优化的典范。与英伟达H100或B200不同——后者需处理训练、推理、图形、科学计算等广泛工作负载——Jalapeño是一款窄聚焦、激光般精准的推理引擎。其架构围绕三大核心创新:
1. 稀疏注意力加速: Transformer推理的核心是注意力机制,涉及计算序列中每对token之间的注意力分数。这受限于内存带宽而非计算能力。Jalapeño集成了专用于稀疏注意力模式的硬件——具体而言,它利用自定义脉动阵列处理密集与2:4结构化稀疏性,可跳过零或接近零的注意力权重。对于长上下文序列,这可将内存读取量减少高达60%。
2. KV缓存的统一内存层次: 在自回归解码过程中,键值(KV)缓存是最大的内存消耗者。Jalapeño采用新颖的三层内存架构:一个超快的小型SRAM暂存器(2MB)用于最近token,一个中端HBM3e堆栈(80GB,带宽3.6 TB/s)用于完整缓存,以及一个专用片上压缩引擎,利用学习量化方案(FP8配合每头缩放)将缓存大小缩减50%且不损失精度。这缓解了内存墙瓶颈。
3. 动态精度调度: 该芯片在推理过程中可逐层在FP8、INT8和INT4精度之间切换。一个轻量级运行时分析器监控每层对量化噪声的敏感度,并实时调整精度。例如,早期嵌入层以FP8运行,而深层前馈层可安全降至INT4,相比静态量化方法带来2倍吞吐量提升。
开源参考: 尽管Jalapeño本身是专有技术,但其协同设计理念与开源项目Gemmini(GitHub: UC Berkeley ASPIRE Lab)的概念相呼应。Gemmini是一个全栈DNN加速器生成器,拥有1200+星标,为基于脉动阵列的推理加速器提供参数化模板。Jalapeño很可能将Gemmini类原理与针对Transformer工作负载的自定义内存控制器相结合。
基准性能(预计 vs. H100):
| 指标 | NVIDIA H100 (SXM) | Jalapeño (预估) | 提升幅度 |
|---|---|---|---|
| Token/秒 (Llama 3 70B, batch=1) | 45 | 210 | 4.7倍 |
| Token/秒 (GPT-4级别, batch=32) | 1,200 | 5,800 | 4.8倍 |
| 每token功耗 (Llama 3 70B) | 15.2 µJ | 3.1 µJ | 4.9倍 |
| 峰值内存带宽 | 3.35 TB/s | 3.6 TB/s | 7% |
| 片上SRAM | 50 MB | 2 MB (仅暂存器) | — |
| 精度支持 | FP8/INT8 | FP8/INT8/INT4 | — |
数据要点: batch=1时4.7倍的吞吐量提升是核心数字。这对ChatGPT语音模式或智能体循环等实时应用至关重要——每token低延迟是重中之重。能效提升(4.9倍)直接转化为更低的云运营成本,这是OpenAI盈利能力的关键因素。
---
关键参与者与案例研究
OpenAI 提供算法端专业知识:对Transformer架构、注意力机制以及关键推理工作负载的深刻理解。该公司自2022年起悄然组建内部芯片团队,从苹果A系列芯片团队和谷歌TPU部门挖角工程师。Jalapeño是这一努力的初步成果。
博通 提供物理设计、封装和高量产制造专长。博通在定制ASIC设计(面向网络和超大规模数据中心)方面实力雄厚——他们已为谷歌(TPU v4/v5)和Meta设计芯片。其3D-IC封装技术(采用混合键合)使Jalapeño能够将HBM3e内存直接堆叠在计算芯片之上,相比传统中介层延迟降低30%。
竞争格局:
| 公司 | 芯片 | 重点 | 状态 | 关键指标 |
|---|---|---|---|---|
| OpenAI + 博通 | Jalapeño | LLM推理 | 已发布 (2026) | 4.7倍 vs H100 |
| 谷歌 | TPU v5p | 训练 + 推理 | 生产中 | 2.5倍 vs TPU v4 |
| 亚马逊 | Trainium2 | 训练 | 生产中 | 2倍 vs Trainium1 |
| 微软 | Maia 100 | 推理 | 已发布 (2025) | 3倍 vs H100 (声称) |
| Groq | LPU | 推理 (低延迟) | 生产中 | 每token 0.5ms |
| Cerebras | CS-3 | 训练 + 推理 | 生产中 | 晶圆级 |
数据要点: OpenAI并非首家构建定制芯片的超大规模企业,但它是首家纯AI公司这样做。谷歌和亚马逊构建芯片以服务自家云客户;微软的Maia与Azure绑定。Jalapeño的独特之处在于它专为OpenAI自有模型设计,形成了竞争对手难以复制的紧密反馈循环。
案例研究:Groq的LPU 是一个有启发性的对比。Groq的语言处理单元在Llama 2 70B上实现了每token 0.5ms的延迟,但它使用