技术深度解析
AI行业已经撞上了一堵任何晶体管微缩都无法解决的墙:'通信墙'。在一个典型的万亿参数模型大规模训练集群中,数据移动——包括梯度同步、张量并行、流水线并行——所耗费的时间可占总训练时间的50%至70%。这并非软件缺陷,而是一个根本性的物理问题。数据必须穿越PCIe通道、经过网络交换机、跨越光收发器、最终进入内存。每一次跳转都会引入延迟、消耗功耗并产生热热点。
Marvell的策略是掌控这一连接堆栈的每一层。该公司的产品组合包括:
- 定制ASIC(专用集成电路): Marvell是亚马逊Trainium 2和谷歌TPU v5背后的设计合作伙伴。这些芯片并非通用GPU,而是为特定张量运算量身打造,并且关键在于针对集群内通信进行了优化。Marvell在高带宽内存接口(HBM3/HBM4)和芯片间互联(采用其专有MoChi架构)方面的专长,使超大规模云厂商能够构建彼此间以极低延迟通信的定制计算单元。
- 800G和1.6T以太网PHY: 随着数据中心从400G向800G乃至1.6T以太网演进,Marvell的PAM4 DSP(数字信号处理器)技术已成为行业标准。该公司Alaska PHY系列产品被思科、Arista和瞻博网络的交换机广泛采用,使物理层能够应对在铜缆或光纤上运行800G时面临的极端信号完整性挑战。没有这些PHY,训练集群所需的巨大带宽在物理上根本无法实现。
- PCIe重定时器和交换机: PCIe Gen 5和Gen 6是GPU到CPU、GPU到存储通信的骨干。Marvell的重定时器(如88NR2241)能在长距离走线上再生PCIe信号,从而实现更大、更灵活的服务器拓扑结构。这对于扩展到8个GPU节点以上的集群至关重要。
- 光互联: Marvell在硅光子和相干光引擎领域投入巨资。其2020年对Inphi的收购使其在800G ZR/ZR+可插拔模块领域占据主导地位,这些模块对于连接城域距离(最远120公里)内的数据中心至关重要。这是将多站点训练集群粘合在一起的'胶水'。
基准数据: 为了理解其影响,请考虑以下在4096个GPU集群上训练万亿参数模型的性能对比:
| 组件 | 传统配置 | Marvell优化配置 | 提升幅度 |
|---|---|---|---|
| GPU间带宽 | 400 Gbps (InfiniBand) | 800 Gbps (采用Marvell PHY的以太网) | 2倍 |
| PCIe Gen 5重定时器延迟 | 150 ns | 80 ns (Marvell 88NR2241) | 降低47% |
| 内存带宽 (HBM3) | 每GPU 3.2 TB/s | 每GPU 3.6 TB/s (Marvell定制ASIC) | 提升12.5% |
| 每轮训练时间 | 14.2小时 | 9.8小时 | 提速31% |
数据要点: 31%的训练时间缩减并非理论值。它来自于消除'通信墙'——即GPU因等待数据而空闲的时间。在一个价值100亿美元的训练集群中,31%的效率提升意味着每年节省31亿美元的计算成本。
相关GitHub仓库: 对于关注此问题软件层面的工程师,GitHub上的开源项目`msccl`(微软集合通信库,已获1200多颗星)实现了在Marvell硬件之上优化all-reduce和all-gather操作的算法。这展示了软硬件协同设计的必要性。
关键玩家与案例研究
Marvell并未在GPU市场与英伟达正面竞争。相反,它为自己开辟了一个独特的定位:为那些希望构建自有AI芯片的超大规模云厂商提供'镐和铲'的供应商。该生态系统中的关键玩家包括:
- 亚马逊云服务(AWS): Marvell是AWS Trainium和Inferentia芯片的主要ASIC设计合作伙伴。AWS已在其EC2 Trn2实例中部署了超过10万颗Trainium 2芯片。Marvell的角色不仅是芯片设计,它还提供将这些芯片连接成64芯片UltraCluster的网络IP(以太网、PCIe)。
- 谷歌云: 用于训练Gemini 2.0的谷歌TPU v5p依赖Marvell的定制互联技术。谷歌公开表示,TPU v5p的训练性能是TPU v4的2倍,而Marvell的网络技术是关键推动因素。
- 微软: 尽管微软大部分AI工作负载使用英伟达GPU,但它也已与Marvell合作开发其专为推理设计的Maia 100 AI加速器。Marvell提供高速SerDes(串行器/解串器)和内存控制器IP。
- 博通: 这是Marvell在定制ASIC和网络领域的主要竞争对手。博通也为谷歌(TPU v4)和Meta(MTIA)设计定制芯片。Marvell与博通之间的较量,是AI基础设施领域一场代理权争夺战。