黄仁勋点名Marvell:下一个万亿美元半导体巨头浮出水面

June 2026
AI infrastructure归档:June 2026
英伟达CEO黄仁勋罕见公开力挺Marvell Technology,标志着AI基础设施的重心正从算力转向数据流动效率。当瓶颈从原始计算能力变为数据传输速度,Marvell在定制芯片和高速互联领域的深厚护城河,或使其成为下一个万亿美元级别的半导体巨头。

在一份罕见且经过深思熟虑的公开声明中,英伟达CEO黄仁勋明确将Marvell Technology列为有望成为下一个万亿美元半导体巨头的候选者。这绝非随口称赞,而是一个关于AI产业未来走向的战略信号。过去两年,行业叙事完全被GPU计算主导——一场为训练大模型而打造更大、更快芯片的竞赛。然而,随着大语言模型(LLM)参数规模普遍突破万亿大关,新的瓶颈已然浮现:连接性。数据中心的物理现实是,在某些集群中,GPU、内存和存储之间的数据传输消耗了超过60%的训练时间。'以计算为中心'的AI时代正在让位于'以连接为中心'的AI。长期以来被视为低调参与者的Marvell,如今正凭借其在定制硅芯片和高速互联技术上的深厚积累,站上舞台中央。

技术深度解析

AI行业已经撞上了一堵任何晶体管微缩都无法解决的墙:'通信墙'。在一个典型的万亿参数模型大规模训练集群中,数据移动——包括梯度同步、张量并行、流水线并行——所耗费的时间可占总训练时间的50%至70%。这并非软件缺陷,而是一个根本性的物理问题。数据必须穿越PCIe通道、经过网络交换机、跨越光收发器、最终进入内存。每一次跳转都会引入延迟、消耗功耗并产生热热点。

Marvell的策略是掌控这一连接堆栈的每一层。该公司的产品组合包括:

- 定制ASIC(专用集成电路): Marvell是亚马逊Trainium 2和谷歌TPU v5背后的设计合作伙伴。这些芯片并非通用GPU,而是为特定张量运算量身打造,并且关键在于针对集群内通信进行了优化。Marvell在高带宽内存接口(HBM3/HBM4)和芯片间互联(采用其专有MoChi架构)方面的专长,使超大规模云厂商能够构建彼此间以极低延迟通信的定制计算单元。

- 800G和1.6T以太网PHY: 随着数据中心从400G向800G乃至1.6T以太网演进,Marvell的PAM4 DSP(数字信号处理器)技术已成为行业标准。该公司Alaska PHY系列产品被思科、Arista和瞻博网络的交换机广泛采用,使物理层能够应对在铜缆或光纤上运行800G时面临的极端信号完整性挑战。没有这些PHY,训练集群所需的巨大带宽在物理上根本无法实现。

- PCIe重定时器和交换机: PCIe Gen 5和Gen 6是GPU到CPU、GPU到存储通信的骨干。Marvell的重定时器(如88NR2241)能在长距离走线上再生PCIe信号,从而实现更大、更灵活的服务器拓扑结构。这对于扩展到8个GPU节点以上的集群至关重要。

- 光互联: Marvell在硅光子和相干光引擎领域投入巨资。其2020年对Inphi的收购使其在800G ZR/ZR+可插拔模块领域占据主导地位,这些模块对于连接城域距离(最远120公里)内的数据中心至关重要。这是将多站点训练集群粘合在一起的'胶水'。

基准数据: 为了理解其影响,请考虑以下在4096个GPU集群上训练万亿参数模型的性能对比:

| 组件 | 传统配置 | Marvell优化配置 | 提升幅度 |
|---|---|---|---|
| GPU间带宽 | 400 Gbps (InfiniBand) | 800 Gbps (采用Marvell PHY的以太网) | 2倍 |
| PCIe Gen 5重定时器延迟 | 150 ns | 80 ns (Marvell 88NR2241) | 降低47% |
| 内存带宽 (HBM3) | 每GPU 3.2 TB/s | 每GPU 3.6 TB/s (Marvell定制ASIC) | 提升12.5% |
| 每轮训练时间 | 14.2小时 | 9.8小时 | 提速31% |

数据要点: 31%的训练时间缩减并非理论值。它来自于消除'通信墙'——即GPU因等待数据而空闲的时间。在一个价值100亿美元的训练集群中,31%的效率提升意味着每年节省31亿美元的计算成本。

相关GitHub仓库: 对于关注此问题软件层面的工程师,GitHub上的开源项目`msccl`(微软集合通信库,已获1200多颗星)实现了在Marvell硬件之上优化all-reduce和all-gather操作的算法。这展示了软硬件协同设计的必要性。

关键玩家与案例研究

Marvell并未在GPU市场与英伟达正面竞争。相反,它为自己开辟了一个独特的定位:为那些希望构建自有AI芯片的超大规模云厂商提供'镐和铲'的供应商。该生态系统中的关键玩家包括:

- 亚马逊云服务(AWS): Marvell是AWS Trainium和Inferentia芯片的主要ASIC设计合作伙伴。AWS已在其EC2 Trn2实例中部署了超过10万颗Trainium 2芯片。Marvell的角色不仅是芯片设计,它还提供将这些芯片连接成64芯片UltraCluster的网络IP(以太网、PCIe)。

- 谷歌云: 用于训练Gemini 2.0的谷歌TPU v5p依赖Marvell的定制互联技术。谷歌公开表示,TPU v5p的训练性能是TPU v4的2倍,而Marvell的网络技术是关键推动因素。

- 微软: 尽管微软大部分AI工作负载使用英伟达GPU,但它也已与Marvell合作开发其专为推理设计的Maia 100 AI加速器。Marvell提供高速SerDes(串行器/解串器)和内存控制器IP。

- 博通: 这是Marvell在定制ASIC和网络领域的主要竞争对手。博通也为谷歌(TPU v4)和Meta(MTIA)设计定制芯片。Marvell与博通之间的较量,是AI基础设施领域一场代理权争夺战。

相关专题

AI infrastructure279 篇相关文章

时间归档

June 2026310 篇已发布文章

延伸阅读

英伟达的Anthropic豪赌:黄仁勋的直供AI战略能否击败云巨头?英伟达CEO黄仁勋已向传统云模式宣战,将公司定位为AWS、Azure和Google Cloud的直接竞争者,而非供应商。本文剖析英伟达以与Anthropic深度合作为锚点的激进战略转向,并评估其CUDA生态能否抵挡住全球最大科技公司的反击。静默转型:大模型不再面向用户,转而服务于AI智能体大语言模型正从聊天机器人蜕变为自主智能体的“中枢大脑”,统筹处理从旅行规划到代码生成等复杂现实任务。这标志着价值衡量标准从“输出质量”向“任务完成度”的根本性转变。电信巨头开卖算力Token:AI正式迈入“水电”时代中国三大电信运营商正式推出标准化“算力Token”业务,将GPU集群转化为按需付费的公共算力服务。这一举措大幅降低了中小团队获取高性能计算的门槛,更标志着AI产业正进入大规模商业化阶段——而掌握“卖铲子”话语权的,如今变成了电信运营商。Token饥荒:AI巨头为何开始配给算力、重写规则无限Token挥霍的时代已经终结。一场静默的革命正在AI实验室中蔓延——由于边际收益急剧递减的残酷经济学,各大科技公司正主动削减Token消耗。这并非预算紧缩,而是对智能构建与部署方式的根本性反思。

常见问题

这次公司发布“Jensen Huang Taps Marvell: The Next Trillion-Dollar Semiconductor Play”主要讲了什么?

In a rare and deliberate public statement, NVIDIA CEO Jensen Huang identified Marvell Technology as a company with the potential to become the next trillion-dollar semiconductor po…

从“Marvell vs Broadcom custom ASIC comparison”看,这家公司的这次发布为什么值得关注?

The AI industry has hit a wall that no amount of transistor scaling can solve: the 'communication wall.' In a typical large-scale training cluster for a 1-trillion-parameter model, the time spent on data movement — gradi…

围绕“Marvell 800G Ethernet PHY technical specifications”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。