技术深度解析
NVLink Fusion的核心,是从点对点的GPU互连技术,向异构系统架构的演进。传统的NVLink虽然在Blackwell架构中实现了高达900 GB/s的GPU间通信速度,但其运作范围仍受限制。NVLink Fusion扩展了该协议的原则,旨在创建一个统一的内存一致性域,涵盖CPU、GPU、DPU及第三方加速器。
技术实现可能涉及几项关键创新:
1. 协议抽象层:一个转换层,使NVLink协议能够理解并管理来自非GPU设备的流量,同时保持超低延迟特性。这需要复杂的包头修改和队列管理架构。
2. 架构控制器集成:Marvell在高速SerDes(串行器/解串器)PHY和交换机架构方面的专长,正被直接集成到NVIDIA的基板管理控制器中。`opencomputeproject/OpenBMC` GitHub仓库显示围绕异构加速器管理的活动有所增加,尽管具体的NVLink Fusion控制器仍是专有的。
3. 内存一致性扩展:为实现跨不同处理单元的真正的共享内存,系统必须实现基于目录的一致性协议,其规模需超越传统的CPU-GPU范式。这类似于学术研究中Cache Coherent Interconnect for Accelerators (CCIX)等概念,但加上了NVIDIA的性能优化。
性能影响是巨大的。当前基准测试显示,在NVIDIA GPU与第三方加速器之间移动数据时存在显著瓶颈:
| 数据传输路径 | 延迟 (ns) | 带宽 (GB/s) | 协议 |
|---|---|---|---|
| GPU到GPU (NVLink 4) | 100-150 | 900 | NVLink |
| GPU到CPU (PCIe 5.0) | 300-500 | 128 | PCIe |
| GPU到定制ASIC (PCIe) | 500-800 | 64-128 | PCIe |
| 预计:GPU到Marvell DPU (NVLink Fusion) | 150-250 | 400-600 | NVLink Fusion |
数据要点:与标准PCIe实现相比,NVLink Fusion有望将加速器间延迟降低3-5倍,从根本上改变异构计算的经济性,使得对于许多工作负载而言,数据移动的成本低于计算成本。
近期的开源发展暗示了其底层基础设施。`NVIDIA/open-gpu-kernel-modules`仓库显示内存管理的抽象化程度提高,而`spdk/spdk`(存储性能开发套件)展示了对NVMe-over-Fabrics的优化,这可能与这一新架构集成。真正的突破在于创建一个一致性的地址空间,使得Marvell OCTEON DPU能够直接操作驻留在GPU HBM3内存中的张量,而无需显式的复制操作。
关键参与者与案例分析
Marvell与NVIDIA的合作在AI硬件领域形成了一个强大的轴心,但它存在于一个复杂的竞争生态系统中:
主要架构者:NVIDIA
NVIDIA的战略已从销售独立GPU演变为提供完整的计算平台。随着Blackwell GPU提供20 petaflops的AI性能,以及Grace CPU提供500 GB/s的内存带宽,该公司现在寻求在系统层面锁定性能优势。黄仁勋关于“AI工厂”的愿景要求所有组件无缝集成——NVLink Fusion就是粘合剂。
基础设施专家:Marvell
Marvell带来了NVIDIA所缺乏的数据基础设施关键专长。其OCTEON DPU系列每秒处理超过3亿个数据包,而其定制ASIC业务已为亚马逊的Graviton、微软的Azure和谷歌的TPU基础设施设计芯片。通过将Marvell的数据移动和网络智能直接集成到NVLink架构中,NVIDIA获得了此前仅为云超大规模企业保留的系统级优化能力。
竞争回应:
- AMD的Infinity Fabric:在MI300X系统中,已能以896 GB/s的带宽连接AMD CPU和GPU。然而,它缺乏对第三方加速器的支持以及像CUDA那样深厚的软件堆栈集成。
- Intel的Compute Express Link (CXL):一个日益受到关注的开放标准,CXL 3.0支持内存池化和架构能力。像Astera Labs这样的公司正在构建CXL交换机,但目前性能落后于专有解决方案。
- 云服务商定制芯片:亚马逊的Trainium和Inferentia、谷歌的TPU v5e以及微软的Maia代表了垂直集成的替代方案。这些方案通过内部设计一切来避免互连瓶颈,但牺牲了生态系统的灵活性。
| 解决方案 | 峰值架构带宽 | 一致性协议 | 第三方支持 | 软件生态系统 |
|---|---|---|---|---|
| NVLink Fusion | 400-600 GB/s (预估) | 基于目录 | 受控 (Marvell) | CUDA/Xavier (成熟) |
| AMD Infinity Fabric | 896 GB/s | 扩展的HyperTransport | 无 (仅AMD) | ROCm (发展中) |
| Intel CXL 3.0 | 256 GB/s (每通道) | 基于目录 | 开放标准 | oneAPI (推广中) |
| 云厂商自研芯片 | 内部优化 | 内部专有 | 无 | 内部框架 |