Marvell加入NVIDIA NVLink生态,AI硬件竞争进入系统级整合新阶段

Marvell Technology通过NVLink Fusion正式融入NVIDIA硬件生态系统,标志着AI基础设施战略的一次关键演进。此次合作超越了单纯的组件供应,旨在架构一个统一的计算架构,将NVIDIA的Grace CPU、Blackwell GPU及未来加速器,与Marvell的数据处理单元(DPU)及定制ASIC无缝连接。其技术核心在于将NVLink从GPU间互连协议,升级为通用的系统级协议——一个为下一代AI数据中心打造的“计算神经系统”。这一战略联盟直接回应了主要云服务商自研芯片导致的生态碎片化问题。通过提供一套高性能、集成化的硬件堆栈,并辅以开放但专有的互连标准,NVIDIA与Marvell正试图为行业树立新的系统级标杆,将竞争从单一芯片性能延伸至整个计算平台的效率与协同能力。

技术深度解析

NVLink Fusion的核心,是从点对点的GPU互连技术,向异构系统架构的演进。传统的NVLink虽然在Blackwell架构中实现了高达900 GB/s的GPU间通信速度,但其运作范围仍受限制。NVLink Fusion扩展了该协议的原则,旨在创建一个统一的内存一致性域,涵盖CPU、GPU、DPU及第三方加速器。

技术实现可能涉及几项关键创新:

1. 协议抽象层:一个转换层,使NVLink协议能够理解并管理来自非GPU设备的流量,同时保持超低延迟特性。这需要复杂的包头修改和队列管理架构。

2. 架构控制器集成:Marvell在高速SerDes(串行器/解串器)PHY和交换机架构方面的专长,正被直接集成到NVIDIA的基板管理控制器中。`opencomputeproject/OpenBMC` GitHub仓库显示围绕异构加速器管理的活动有所增加,尽管具体的NVLink Fusion控制器仍是专有的。

3. 内存一致性扩展:为实现跨不同处理单元的真正的共享内存,系统必须实现基于目录的一致性协议,其规模需超越传统的CPU-GPU范式。这类似于学术研究中Cache Coherent Interconnect for Accelerators (CCIX)等概念,但加上了NVIDIA的性能优化。

性能影响是巨大的。当前基准测试显示,在NVIDIA GPU与第三方加速器之间移动数据时存在显著瓶颈:

| 数据传输路径 | 延迟 (ns) | 带宽 (GB/s) | 协议 |
|---|---|---|---|
| GPU到GPU (NVLink 4) | 100-150 | 900 | NVLink |
| GPU到CPU (PCIe 5.0) | 300-500 | 128 | PCIe |
| GPU到定制ASIC (PCIe) | 500-800 | 64-128 | PCIe |
| 预计:GPU到Marvell DPU (NVLink Fusion) | 150-250 | 400-600 | NVLink Fusion |

数据要点:与标准PCIe实现相比,NVLink Fusion有望将加速器间延迟降低3-5倍,从根本上改变异构计算的经济性,使得对于许多工作负载而言,数据移动的成本低于计算成本。

近期的开源发展暗示了其底层基础设施。`NVIDIA/open-gpu-kernel-modules`仓库显示内存管理的抽象化程度提高,而`spdk/spdk`(存储性能开发套件)展示了对NVMe-over-Fabrics的优化,这可能与这一新架构集成。真正的突破在于创建一个一致性的地址空间,使得Marvell OCTEON DPU能够直接操作驻留在GPU HBM3内存中的张量,而无需显式的复制操作。

关键参与者与案例分析

Marvell与NVIDIA的合作在AI硬件领域形成了一个强大的轴心,但它存在于一个复杂的竞争生态系统中:

主要架构者:NVIDIA
NVIDIA的战略已从销售独立GPU演变为提供完整的计算平台。随着Blackwell GPU提供20 petaflops的AI性能,以及Grace CPU提供500 GB/s的内存带宽,该公司现在寻求在系统层面锁定性能优势。黄仁勋关于“AI工厂”的愿景要求所有组件无缝集成——NVLink Fusion就是粘合剂。

基础设施专家:Marvell
Marvell带来了NVIDIA所缺乏的数据基础设施关键专长。其OCTEON DPU系列每秒处理超过3亿个数据包,而其定制ASIC业务已为亚马逊的Graviton、微软的Azure和谷歌的TPU基础设施设计芯片。通过将Marvell的数据移动和网络智能直接集成到NVLink架构中,NVIDIA获得了此前仅为云超大规模企业保留的系统级优化能力。

竞争回应
- AMD的Infinity Fabric:在MI300X系统中,已能以896 GB/s的带宽连接AMD CPU和GPU。然而,它缺乏对第三方加速器的支持以及像CUDA那样深厚的软件堆栈集成。
- Intel的Compute Express Link (CXL):一个日益受到关注的开放标准,CXL 3.0支持内存池化和架构能力。像Astera Labs这样的公司正在构建CXL交换机,但目前性能落后于专有解决方案。
- 云服务商定制芯片:亚马逊的Trainium和Inferentia、谷歌的TPU v5e以及微软的Maia代表了垂直集成的替代方案。这些方案通过内部设计一切来避免互连瓶颈,但牺牲了生态系统的灵活性。

| 解决方案 | 峰值架构带宽 | 一致性协议 | 第三方支持 | 软件生态系统 |
|---|---|---|---|---|
| NVLink Fusion | 400-600 GB/s (预估) | 基于目录 | 受控 (Marvell) | CUDA/Xavier (成熟) |
| AMD Infinity Fabric | 896 GB/s | 扩展的HyperTransport | 无 (仅AMD) | ROCm (发展中) |
| Intel CXL 3.0 | 256 GB/s (每通道) | 基于目录 | 开放标准 | oneAPI (推广中) |
| 云厂商自研芯片 | 内部优化 | 内部专有 | 无 | 内部框架 |

常见问题

这次公司发布“Marvell Joins NVIDIA's NVLink Ecosystem, Redefining AI Hardware Competition”主要讲了什么?

The formal integration of Marvell Technology into NVIDIA's hardware ecosystem via NVLink Fusion represents a pivotal evolution in AI infrastructure strategy. This partnership exten…

从“NVLink Fusion vs CXL performance comparison 2024”看,这家公司的这次发布为什么值得关注?

At its core, NVLink Fusion represents an architectural evolution from a point-to-point GPU interconnect to a heterogeneous system fabric. Traditional NVLink, while revolutionary for GPU-to-GPU communication at speeds up…

围绕“Marvell DPU NVIDIA integration technical specifications”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。