技术深度解析
Jalapeño芯片并非通用GPU,而是一款专注于Transformer推理的领域专用加速器(DSA)。其核心是一个针对注意力机制中密集矩阵乘法优化的脉动阵列。与NVIDIA为跨多种模型架构的混合精度训练和推理设计的Tensor Cores不同,Jalapeño的张量引擎专为GPT风格自回归解码器中的精确数据流模式而硬连线。
内存架构: 该芯片采用三层内存层次结构:用于注意力分数和KV缓存的小型超快片上SRAM(暂存器)、用于模型权重的高带宽HBM3e堆栈,以及一个动态跳过零值激活的新型“稀疏缓存”。这种设计直接解决了自回归生成的内存密集型特性——瓶颈通常在于将权重从HBM移动到计算单元。通过集成专用KV缓存控制器,Jalapeño将关键“预填充”阶段的延迟降低了约40%。
稀疏计算支持: 该芯片包含用于结构化稀疏的专用硬件,这是一种剪枝整个权重块的技术。OpenAI很可能与芯片共同设计了稀疏模式,使Jalapeño在50%稀疏度的模型上实现2倍有效吞吐量。这相较于NVIDIA的Ampere和Hopper架构是一个显著优势,后者对非结构化稀疏的支持效率较低。
基准测试性能:
| 指标 | NVIDIA H100 (FP8) | OpenAI Jalapeño (FP8) | 提升幅度 |
|---|---|---|---|
| 延迟(每token,GPT-4级模型) | 35 ms | 12 ms | 2.9倍 |
| 吞吐量(token/秒/芯片) | 1,200 | 4,500 | 3.75倍 |
| 每百万token成本(估算) | $0.60 | $0.06 | 10倍 |
| 功耗(峰值) | 700W | 450W | 降低36% |
| KV缓存容量(每芯片) | 128 GB | 256 GB | 2倍 |
数据要点: 10倍成本降低是头条数字,但2倍KV缓存容量同样具有变革性。它支持更长的上下文窗口(例如100万token),而无需诉诸昂贵的内存分解,直接赋能全文档分析和扩展型智能体工作流等新用例。
相关开源项目: 尽管Jalapeño是专有的,但开源社区正在探索类似思路。来自Anyscale(现为Ray)的[LLM-inference](https://github.com/ray-project/llm-inference)仓库(3.2k星)专注于优化KV缓存管理。[vLLM](https://github.com/vllm-project/vllm)项目(28k星)首创了PagedAttention,这是一种在软件层面实现与Jalapeño硬件KV缓存控制器类似内存效率的技术。Jalapeño的架构本质上将vLLM的软件创新固化到了硅片中。
关键参与者与案例研究
OpenAI: 主要受益者。通过拥有硅片,OpenAI现在可以提供具有保证延迟和吞吐量的API层级,这成为对抗依赖TPU和GPU的竞争对手(如Anthropic的Claude和Google的Gemini)的差异化优势。OpenAI与Broadcom的合作利用了Broadcom在高速互连和定制ASIC设计方面的专长,这一关系自2023年以来一直在悄然发展。
Broadcom: 芯片的联合设计者和制造商。Broadcom将其Tomahawk交换技术用于芯片间互连,并采用3nm设计流程。这一合作表明Broadcom立志成为首选定制AI芯片合作伙伴,与Marvell和Alchip竞争。消息公布后,Broadcom股价上涨8%。
NVIDIA: 直接受损方。尽管NVIDIA的H100和B200在训练领域仍将占据主导地位,但推理市场——预计到2027年将占AI计算需求的70%——现已受到挑战。NVIDIA的回应可能涉及与CUDA的更紧密集成以及在推理特定功能上的更快迭代,但NVIDIA建立的硬件-软件协同优化护城河如今正被其最大客户所复制。
竞争性定制芯片:
| 公司 | 芯片 | 重点 | 状态 |
|---|---|---|---|
| OpenAI/Broadcom | Jalapeño | Transformer推理 | 已发布,2025年Q4量产 |
| Google | TPU v6 | 训练与推理 | 内部部署 |
| Amazon | Trainium 2 | 训练 | 通过AWS可用 |
| Microsoft | Maia 100 | 推理 | 为Copilot部署 |
| Meta | MTIA v2 | 推荐与推理 | 开发中 |
数据要点: 定制芯片竞赛正在分化。Google和Amazon专注于训练和推理,而OpenAI、Microsoft和Meta则优先考虑推理。这表明市场共识是:推理而非训练,将成为未来几年主要的计算成本。
行业影响与市场动态
Jalapeño芯片是对NVIDIA在AI加速器领域80%以上市场份额的直接冲击。推理市场在2024年估值为180亿美元,预计到2028年将增长至850亿美元(来源:基于半导体行业数据的AINews内部分析)。