技术深度解析
Infinera令人震惊的财务表现,本质上是一个关于物理定律与数据流动的故事。在现代AI集群(例如围绕NVIDIA DGX系统或定制TPU pod构建的集群)的核心,存在着一个巨大的网络结构。这个结构必须在训练期间在加速器之间快速交换太字节级别的数据,并处理海量的并行推理请求。传统的算力瓶颈,正日益被互连带宽和延迟的瓶颈所取代。
光模块的演进之路: 行业正经历一场从400G到800G,再到1.6T(太比特)光模块的强制性急行军。一个800G光模块可以通过单根光纤每秒传输800吉比特数据。在高端口密度的交换机中部署这些模块,才能使由一万个甚至更多GPU组成的集群作为一个统一、协调的超级计算机运行。而Infinera及其同行正竞相商业化的1.6T跃迁,不仅将容量翻倍,更非简单的规模扩展。它需要在调制技术(使用先进的PAM4信号调制,将每通道速率从100G提升至200G)、激光技术以及管理信号完整性的复杂数字信号处理(DSP)芯片方面取得突破。
架构性转变: 持续不断的需求正在加速多种下一代竞争架构的发展:
* 共封装光学(CPO): 这一范式旨在将光引擎从交换机前面板的可插拔模块中移出,直接集成到与交换机ASIC相同的封装或基板上。这降低了功耗(一个关键限制)并提高了密度。Intel、Broadcom和Ayar Labs等公司正在推动这一前沿。开放计算项目(OCP)的先进模块外形(Advanced Module Form Factor) 工作组正在推动相关标准化。
* 线性驱动可插拔光学(LPO): 一项中间步骤的创新,它从可插拔模块中移除了高功耗的DSP芯片,转而依赖主机交换机的ASIC进行均衡。这降低了模块功耗和成本,但要求模块供应商与交换机供应商之间紧密集成。它被视为数据中心内中距离链路的潜在主流解决方案。
开源社区在定义和测试这些新接口方面也扮演着角色。虽然硬件本身并非开源,但像GitHub上的 SONiC(Software for Open Networking in the Cloud) 代码库这样的项目至关重要。SONiC是一个将网络软件与硬件解耦的网络操作系统,它允许超大规模云服务商将来自不同供应商(如NVIDIA/Mellanox、Arista、Cisco)的最佳交换机与来自Infinera、Coherent等公司的光模块集成,从而创建一个更具竞争力和敏捷性的供应链。
| 互连技术 | 单端口带宽 | 相对功耗 | 主要应用场景 | 商业化时间线 |
|---|---|---|---|---|
| 800G 可插拔(基于DSP) | 800 Gbps | 高(约12-14W) | AI集群骨干/叶节点 | 当前大规模部署 |
| 1.6T 可插拔 | 1.6 Tbps | 极高(预计20W+) | 下一代AI集群网络 | 2025-2026样品阶段 |
| CPO(共封装) | 1.6T+ | 低(预计低于可插拔方案的50%) | 未来AI交换机/XPU | 2026-2027及以后 |
| LPO(线性驱动) | 800G | 中(比DSP方案低约30%) | AI集群中距离连接 | 2024-2025上量期 |
数据启示: 上表揭示了一个正处于快速、多路径转型中的行业。虽然基于DSP的800G模块是当前的利润引擎,但技术路线图显示出巨大的压力:既要提供更高带宽(1.6T),又要通过CPO和LPO同时解决棘手的功耗问题。未来24个月,所有这些技术将竞相争夺设计订单。
关键参与者与案例研究
服务于AI的光学供应链是一个高壁垒的寡头市场,少数几家公司攫取了超大规模云服务商的大部分需求。Infinera的成功是这一广阔图景的一部分。
模块与组件巨头:
* Infinera: 本报告的主角,作为800G模块的商用供应商,已成功为多家超大规模云服务商供货,确立了领先地位。其优势在于垂直整合,自行制造磷化铟激光器芯片和先进光子集成电路(PIC),这提供了成本与供应链安全保障。
* Coherent Corp.(前身为II-VI): 另一个巨头,尤其是在收购了前竞争对手NeoPhotonics的资产之后。Coherent是云巨头的重要供应商,并大力投资于硅光子技术——该技术在硅晶圆上构建光学元件,有望实现规模化和成本降低。
* Broadcom: 虽然以网络ASIC闻名,但Broadcom同时也是每颗高端可插拔光模块内部DSP芯片的主导供应商。其Tomahawk和Jericho交换机系列是AI网络的“大脑”,而其光模块DSP业务也受益于同一趋势。
* NVIDIA: 不仅仅是一家GPU公司。通过收购Mellanox,NVIDIA现在提供全栈网络解决方案,包括Spectrum交换机和LinkX……