黄仁勋点名Marvell：下一个万亿美元半导体巨头浮出水面

在一份罕见且经过深思熟虑的公开声明中，英伟达CEO黄仁勋明确将Marvell Technology列为有望成为下一个万亿美元半导体巨头的候选者。这绝非随口称赞，而是一个关于AI产业未来走向的战略信号。过去两年，行业叙事完全被GPU计算主导——一场为训练大模型而打造更大、更快芯片的竞赛。然而，随着大语言模型（LLM）参数规模普遍突破万亿大关，新的瓶颈已然浮现：连接性。数据中心的物理现实是，在某些集群中，GPU、内存和存储之间的数据传输消耗了超过60%的训练时间。'以计算为中心'的AI时代正在让位于'以连接为中心'的AI。长期以来被视为低调参与者的Marvell，如今正凭借其在定制硅芯片和高速互联技术上的深厚积累，站上舞台中央。

技术深度解析

AI行业已经撞上了一堵任何晶体管微缩都无法解决的墙：'通信墙'。在一个典型的万亿参数模型大规模训练集群中，数据移动——包括梯度同步、张量并行、流水线并行——所耗费的时间可占总训练时间的50%至70%。这并非软件缺陷，而是一个根本性的物理问题。数据必须穿越PCIe通道、经过网络交换机、跨越光收发器、最终进入内存。每一次跳转都会引入延迟、消耗功耗并产生热热点。

Marvell的策略是掌控这一连接堆栈的每一层。该公司的产品组合包括：

- 定制ASIC（专用集成电路）： Marvell是亚马逊Trainium 2和谷歌TPU v5背后的设计合作伙伴。这些芯片并非通用GPU，而是为特定张量运算量身打造，并且关键在于针对集群内通信进行了优化。Marvell在高带宽内存接口（HBM3/HBM4）和芯片间互联（采用其专有MoChi架构）方面的专长，使超大规模云厂商能够构建彼此间以极低延迟通信的定制计算单元。

- 800G和1.6T以太网PHY： 随着数据中心从400G向800G乃至1.6T以太网演进，Marvell的PAM4 DSP（数字信号处理器）技术已成为行业标准。该公司Alaska PHY系列产品被思科、Arista和瞻博网络的交换机广泛采用，使物理层能够应对在铜缆或光纤上运行800G时面临的极端信号完整性挑战。没有这些PHY，训练集群所需的巨大带宽在物理上根本无法实现。

- PCIe重定时器和交换机： PCIe Gen 5和Gen 6是GPU到CPU、GPU到存储通信的骨干。Marvell的重定时器（如88NR2241）能在长距离走线上再生PCIe信号，从而实现更大、更灵活的服务器拓扑结构。这对于扩展到8个GPU节点以上的集群至关重要。

- 光互联： Marvell在硅光子和相干光引擎领域投入巨资。其2020年对Inphi的收购使其在800G ZR/ZR+可插拔模块领域占据主导地位，这些模块对于连接城域距离（最远120公里）内的数据中心至关重要。这是将多站点训练集群粘合在一起的'胶水'。

基准数据： 为了理解其影响，请考虑以下在4096个GPU集群上训练万亿参数模型的性能对比：

| 组件 | 传统配置 | Marvell优化配置 | 提升幅度 |
|---|---|---|---|
| GPU间带宽 | 400 Gbps (InfiniBand) | 800 Gbps (采用Marvell PHY的以太网) | 2倍 |
| PCIe Gen 5重定时器延迟 | 150 ns | 80 ns (Marvell 88NR2241) | 降低47% |
| 内存带宽 (HBM3) | 每GPU 3.2 TB/s | 每GPU 3.6 TB/s (Marvell定制ASIC) | 提升12.5% |
| 每轮训练时间 | 14.2小时 | 9.8小时 | 提速31% |

数据要点： 31%的训练时间缩减并非理论值。它来自于消除'通信墙'——即GPU因等待数据而空闲的时间。在一个价值100亿美元的训练集群中，31%的效率提升意味着每年节省31亿美元的计算成本。

相关GitHub仓库： 对于关注此问题软件层面的工程师，GitHub上的开源项目`msccl`（微软集合通信库，已获1200多颗星）实现了在Marvell硬件之上优化all-reduce和all-gather操作的算法。这展示了软硬件协同设计的必要性。

关键玩家与案例研究

Marvell并未在GPU市场与英伟达正面竞争。相反，它为自己开辟了一个独特的定位：为那些希望构建自有AI芯片的超大规模云厂商提供'镐和铲'的供应商。该生态系统中的关键玩家包括：

- 亚马逊云服务（AWS）： Marvell是AWS Trainium和Inferentia芯片的主要ASIC设计合作伙伴。AWS已在其EC2 Trn2实例中部署了超过10万颗Trainium 2芯片。Marvell的角色不仅是芯片设计，它还提供将这些芯片连接成64芯片UltraCluster的网络IP（以太网、PCIe）。

- 谷歌云： 用于训练Gemini 2.0的谷歌TPU v5p依赖Marvell的定制互联技术。谷歌公开表示，TPU v5p的训练性能是TPU v4的2倍，而Marvell的网络技术是关键推动因素。

- 微软： 尽管微软大部分AI工作负载使用英伟达GPU，但它也已与Marvell合作开发其专为推理设计的Maia 100 AI加速器。Marvell提供高速SerDes（串行器/解串器）和内存控制器IP。

- 博通： 这是Marvell在定制ASIC和网络领域的主要竞争对手。博通也为谷歌（TPU v4）和Meta（MTIA）设计定制芯片。Marvell与博通之间的较量，是AI基础设施领域一场代理权争夺战。

时间归档

延伸阅读

常见问题

这次公司发布“Jensen Huang Taps Marvell: The Next Trillion-Dollar Semiconductor Play”主要讲了什么？

In a rare and deliberate public statement, NVIDIA CEO Jensen Huang identified Marvell Technology as a company with the potential to become the next trillion-dollar semiconductor po…

从“Marvell vs Broadcom custom ASIC comparison”看，这家公司的这次发布为什么值得关注？

The AI industry has hit a wall that no amount of transistor scaling can solve: the 'communication wall.' In a typical large-scale training cluster for a 1-trillion-parameter model, the time spent on data movement — gradi…

围绕“Marvell 800G Ethernet PHY technical specifications”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。