技术深度解析
Vera CPU 泄露的基准测试揭示了一种既激进又务实的微架构。'Olympus' 核心并非重新利用的移动或桌面设计;它是一个从头构建的服务器核心,针对吞吐量、内存带宽和能效进行了优化——这是现代 AI 基础设施的三大支柱。与 Grace Hopper 基于 Arm 的 Neoverse V2 核心相比,40% 的整数吞吐量提升尤其说明问题。这表明其拥有更宽的乱序执行窗口、更大的 L1/L2 缓存层次结构,以及更先进的分支预测器。Nvidia 很可能实现了一个 10 宽度解码和 12 宽度发射的设计,其雄心与 AMD 的 Zen 5 类似,但重点在于向量和矩阵运算。每瓦浮点性能提升 35% 表明,Olympus 核心将专用的矩阵数学单元——本质上是微型 Tensor Core——直接集成到了 CPU 流水线中,而不仅仅是作为一个独立的加速器。这使得 CPU 能够处理轻量级的 AI 推理和预处理,而无需卸载到 GPU,从而降低了延迟和功耗开销。
一个关键的架构创新是由 Nvidia 的 NVLink-C2C 互连实现的统一内存池。与传统的通过 PCIe Gen5(每通道 64 GB/s)通信的 CPU-GPU 系统不同,Vera 和 Blackwell GPU 通过定制的 die-to-die 互连共享一个一致性内存空间,其带宽高达 900 GB/s。这消除了数据复制,并允许 CPU 直接访问 GPU 内存,反之亦然。对于 AI 工作负载而言,这是革命性的:数据预处理、模型加载,甚至小批量推理都可以由 CPU 处理,而不会阻塞 GPU。泄露的基准测试显示,在使用统一内存与基于 PCIe 的 Grace Hopper 相比时,标准 GPT-3 推理管线的端到端延迟降低了 50%。
对于开发者和研究人员而言,预计 Vera 平台将得到更新版本的 CUDA 编程模型的支持,可能被称为 CUDA 13,它将通过新的内部函数和库来暴露 Olympus 核心的矩阵单元。开源社区已经在推测移植 PyTorch 和 TensorFlow 以利用这些新功能。一个值得关注的 GitHub 仓库是 NVIDIA/cutlass(目前 5.2k 星标),它提供了用于矩阵乘加运算的 CUDA 模板。Vera CPU 很可能需要为其集成的矩阵单元提供新的内核模板,而 Cutlass 是这些优化的天然归宿。
| 基准测试 | Grace Hopper (Neoverse V2) | Vera (Olympus) | 提升幅度 |
|---|---|---|---|
| SPECint 2017 (速率) | 1,200 | 1,680 | +40% |
| SPECfp 2017 (速率) | 1,100 | 1,485 | +35% |
| AI 推理延迟 (GPT-3, 175B, batch=1) | 12.5 ms | 8.3 ms | -34% |
| 能效 (FLOPS/瓦特) | 1.0x | 1.35x | +35% |
| 内存带宽 (GB/s) | 500 (LPDDR5X) | 900 (HBM3e + NVLink-C2C) | +80% |
数据要点: Vera CPU 的性能提升不仅体现在原始计算能力上,还体现在系统级效率上。由 HBM3e 和 NVLink-C2C 驱动的 80% 有效内存带宽提升,才是真正的游戏规则改变者。这意味着,对于大多数受内存限制的 AI 工作负载而言,Vera 的性能将远超 Grace Hopper,其领先幅度甚至比 CPU 核心本身的改进所暗示的还要大。
关键参与者与案例研究
Nvidia 的 Vera CPU 直接瞄准了服务器 CPU 市场的两大主导者:AMD 和 Intel。AMD 的 EPYC Turin (Zen 5) 预计每个插槽提供多达 192 个核心,拥有 256 MB L3 缓存,并支持 DDR5-6000 内存。Intel 的 Xeon Granite Rapids 将提供多达 128 个核心,并配备用于内存密集型工作负载的嵌入式 HBM。然而,两者都是为广泛的企业工作负载而设计的通用 CPU。Nvidia 的 Olympus 核心则是为 AI 量身定制的,这赋予了它专业化的优势。
一个关键的案例研究是 Grace Hopper 在 Microsoft Azure 的部署。微软在其 Azure ND H100 v5 实例中采用了 Grace Hopper,声称与基于 x86 的系统相比,大型语言模型的训练吞吐量提升了 30%。然而,PCIe 瓶颈限制了推理工作负载的性能提升。Vera 的统一内存架构将直接解决这个问题,有可能使 Azure 的 AI 实例在推理方面的效率提高 50%。
另一个关键参与者是 Meta,该公司一直公开呼吁需要更高效的 AI 基础设施。Meta 的开源 PyTorch 框架已经针对 Nvidia GPU 进行了优化,并且该公司的 AI 研究部门已经尝试使用 Grace Hopper 来训练其 LLaMA 模型。如果 Vera 能够实现其基准测试所显示的性能,Meta 可以在保持相同 AI 吞吐量的同时,将其数据中心的功耗降低 35%,这对于一家在 2025 年花费了 100 亿美元用于 AI 基础设施的公司来说,是一笔巨大的成本节约。
| CPU 平台 | 核心/线程 | 内存带宽 | AI 推理效率 (GPT-3, tokens/瓦特) | TDP (瓦) |
|---|---|---|---|---|
| AMD EPYC Turin (Zen 5, 192C) | 192 / 384 | 600 GB/s (DDR5) | 1.0x (基线) | 500 |
| Intel Xeon Granite Rapids (128C) | 128 / 256 | 800 GB/s (HBM + DDR5) | 1.15x | 500 |
| Nvidia Vera (Olympus, 72C) | 72 / 144 | 900 GB/s (HBM3e + NVLink-C2C) | 1.35x | 350 |
数据要点: 尽管核心数量较少,但 Vera 通过更高的内存带宽和专用的 AI 加速实现了卓越的每瓦 AI 推理效率。对于超大规模云服务商而言,这意味着更低的运营成本和更高的服务器密度。