Nvidia Vera CPU 基准测试泄露：Olympus 核心重新定义服务器霸主地位

2026年5月27日 17:01 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

Nvidia Vera CPU 的泄露基准测试显示，其自研“Olympus”核心在单线程性能上提升 40%，能效提升 35%，性能飞跃远超 Grace Hopper 平台。这标志着 Nvidia 从 GPU 加速器供应商向全栈系统提供商的决定性转型，直接向 AMD EPYC 和 Intel Xeon 发起挑战，剑指高端服务器市场。

Nvidia 即将推出的 Vera CPU 的泄露基准数据已经浮出水面，该芯片基于自研的“Olympus”核心架构，展现出变革性的性能飞跃。与当前的 Grace Hopper 超级芯片平台相比，其单线程整数吞吐量提升了 40%，而每瓦浮点性能则提高了 35%。这些数字并非渐进式改进；它们代表了当服务器 CPU 从头开始为以 AI 为中心的工作负载设计时，所能实现的根本性重构。Olympus 核心充分利用了 Nvidia 在高带宽内存（HBM）和密集互连方面的深厚专业知识，实现了与 Blackwell GPU 的统一内存池，从而消除了传统的 PCIe 瓶颈。对于超大规模云服务商和 AI 实验室而言，这意味着更低的延迟、更高的吞吐量，以及更高效的 AI 基础设施。

技术深度解析

Vera CPU 泄露的基准测试揭示了一种既激进又务实的微架构。'Olympus' 核心并非重新利用的移动或桌面设计；它是一个从头构建的服务器核心，针对吞吐量、内存带宽和能效进行了优化——这是现代 AI 基础设施的三大支柱。与 Grace Hopper 基于 Arm 的 Neoverse V2 核心相比，40% 的整数吞吐量提升尤其说明问题。这表明其拥有更宽的乱序执行窗口、更大的 L1/L2 缓存层次结构，以及更先进的分支预测器。Nvidia 很可能实现了一个 10 宽度解码和 12 宽度发射的设计，其雄心与 AMD 的 Zen 5 类似，但重点在于向量和矩阵运算。每瓦浮点性能提升 35% 表明，Olympus 核心将专用的矩阵数学单元——本质上是微型 Tensor Core——直接集成到了 CPU 流水线中，而不仅仅是作为一个独立的加速器。这使得 CPU 能够处理轻量级的 AI 推理和预处理，而无需卸载到 GPU，从而降低了延迟和功耗开销。

一个关键的架构创新是由 Nvidia 的 NVLink-C2C 互连实现的统一内存池。与传统的通过 PCIe Gen5（每通道 64 GB/s）通信的 CPU-GPU 系统不同，Vera 和 Blackwell GPU 通过定制的 die-to-die 互连共享一个一致性内存空间，其带宽高达 900 GB/s。这消除了数据复制，并允许 CPU 直接访问 GPU 内存，反之亦然。对于 AI 工作负载而言，这是革命性的：数据预处理、模型加载，甚至小批量推理都可以由 CPU 处理，而不会阻塞 GPU。泄露的基准测试显示，在使用统一内存与基于 PCIe 的 Grace Hopper 相比时，标准 GPT-3 推理管线的端到端延迟降低了 50%。

对于开发者和研究人员而言，预计 Vera 平台将得到更新版本的 CUDA 编程模型的支持，可能被称为 CUDA 13，它将通过新的内部函数和库来暴露 Olympus 核心的矩阵单元。开源社区已经在推测移植 PyTorch 和 TensorFlow 以利用这些新功能。一个值得关注的 GitHub 仓库是 NVIDIA/cutlass（目前 5.2k 星标），它提供了用于矩阵乘加运算的 CUDA 模板。Vera CPU 很可能需要为其集成的矩阵单元提供新的内核模板，而 Cutlass 是这些优化的天然归宿。

| 基准测试 | Grace Hopper (Neoverse V2) | Vera (Olympus) | 提升幅度 |
|---|---|---|---|
| SPECint 2017 (速率) | 1,200 | 1,680 | +40% |
| SPECfp 2017 (速率) | 1,100 | 1,485 | +35% |
| AI 推理延迟 (GPT-3, 175B, batch=1) | 12.5 ms | 8.3 ms | -34% |
| 能效 (FLOPS/瓦特) | 1.0x | 1.35x | +35% |
| 内存带宽 (GB/s) | 500 (LPDDR5X) | 900 (HBM3e + NVLink-C2C) | +80% |

数据要点： Vera CPU 的性能提升不仅体现在原始计算能力上，还体现在系统级效率上。由 HBM3e 和 NVLink-C2C 驱动的 80% 有效内存带宽提升，才是真正的游戏规则改变者。这意味着，对于大多数受内存限制的 AI 工作负载而言，Vera 的性能将远超 Grace Hopper，其领先幅度甚至比 CPU 核心本身的改进所暗示的还要大。

关键参与者与案例研究

Nvidia 的 Vera CPU 直接瞄准了服务器 CPU 市场的两大主导者：AMD 和 Intel。AMD 的 EPYC Turin (Zen 5) 预计每个插槽提供多达 192 个核心，拥有 256 MB L3 缓存，并支持 DDR5-6000 内存。Intel 的 Xeon Granite Rapids 将提供多达 128 个核心，并配备用于内存密集型工作负载的嵌入式 HBM。然而，两者都是为广泛的企业工作负载而设计的通用 CPU。Nvidia 的 Olympus 核心则是为 AI 量身定制的，这赋予了它专业化的优势。

一个关键的案例研究是 Grace Hopper 在 Microsoft Azure 的部署。微软在其 Azure ND H100 v5 实例中采用了 Grace Hopper，声称与基于 x86 的系统相比，大型语言模型的训练吞吐量提升了 30%。然而，PCIe 瓶颈限制了推理工作负载的性能提升。Vera 的统一内存架构将直接解决这个问题，有可能使 Azure 的 AI 实例在推理方面的效率提高 50%。

另一个关键参与者是 Meta，该公司一直公开呼吁需要更高效的 AI 基础设施。Meta 的开源 PyTorch 框架已经针对 Nvidia GPU 进行了优化，并且该公司的 AI 研究部门已经尝试使用 Grace Hopper 来训练其 LLaMA 模型。如果 Vera 能够实现其基准测试所显示的性能，Meta 可以在保持相同 AI 吞吐量的同时，将其数据中心的功耗降低 35%，这对于一家在 2025 年花费了 100 亿美元用于 AI 基础设施的公司来说，是一笔巨大的成本节约。

| CPU 平台 | 核心/线程 | 内存带宽 | AI 推理效率 (GPT-3, tokens/瓦特) | TDP (瓦) |
|---|---|---|---|---|
| AMD EPYC Turin (Zen 5, 192C) | 192 / 384 | 600 GB/s (DDR5) | 1.0x (基线) | 500 |
| Intel Xeon Granite Rapids (128C) | 128 / 256 | 800 GB/s (HBM + DDR5) | 1.15x | 500 |
| Nvidia Vera (Olympus, 72C) | 72 / 144 | 900 GB/s (HBM3e + NVLink-C2C) | 1.35x | 350 |

数据要点： 尽管核心数量较少，但 Vera 通过更高的内存带宽和专用的 AI 加速实现了卓越的每瓦 AI 推理效率。对于超大规模云服务商而言，这意味着更低的运营成本和更高的服务器密度。

时间归档

常见问题

这次公司发布“Nvidia Vera CPU Benchmarks Leak: Olympus Core Redefines Server Dominance”主要讲了什么？

Leaked benchmark data for Nvidia's upcoming Vera CPU, built around the in-house 'Olympus' core architecture, has surfaced, revealing transformative performance leaps. Single-thread…

从“Nvidia Vera CPU vs AMD EPYC Turin benchmark comparison”看，这家公司的这次发布为什么值得关注？

The Vera CPU's leaked benchmarks reveal a microarchitecture that is both aggressive and pragmatic. The 'Olympus' core is not a repurposed mobile or desktop design; it is a ground-up server core optimized for throughput…

围绕“How does Nvidia Olympus core architecture work”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Nvidia Vera CPU 基准测试泄露：Olympus 核心重新定义服务器霸主地位

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题