技术深度解析
铜缆的物理特性是瓶颈的根本原因。在112 Gbps PAM4信令(当前800G模块的标准)下,趋肤效应和介质损耗导致信号幅度在典型双轴铜缆中每米衰减超过20 dB。这意味着超过2-3米后,信噪比将降至可靠检测阈值以下,迫使使用昂贵的重定时器或有源铜缆,从而增加延迟和功耗。对于224 Gbps SerDes(预计用于1.6T模块),传输距离将缩短至1米以内。
光互连完全绕过了这些限制。单模光纤可在数公里距离上以每通道400 Gbps的速率传输,且损耗极低。但真正的革命在于封装。传统的可插拔光模块(QSFP、OSFP)位于交换机或GPU的面板处,需要从ASIC到模块的电气走线——这些走线本身在高速下就会产生损耗。共封装光学(CPO)通过将光学引擎直接放置在交换机ASIC或GPU的同一基板上,将电气走线长度缩短至毫米级,从而消除了这一瓶颈。其结果是:更低的功耗、更高的带宽密度以及更好的信号完整性。
硅光技术(SiPh)是制造层面的赋能者。通过使用标准CMOS工艺制造光学调制器、探测器和波导,SiPh实现了光学组件的大规模密集集成。Intel、Cisco和Marvell等公司已展示出每根光纤8-16通道、每通道运行在100-200 Gbps的SiPh收发器。开源社区同样活跃:OpenLight平台(GitHub仓库:openlightplatform/photonics)提供了用于设计SiPh电路的PDK库,而SiEPIC计划(GitHub仓库:lucas-santos/SiEPIC_EBeam_PDK)则提供了用于电子束光刻的免费PDK,实现了光子集成电路的快速原型设计。随着光子学设计社区的壮大,这两个仓库的星标数分别增长至500+和200+。
大规模部署下铜缆与光缆的性能对比
| 指标 | 铜缆(112G PAM4,3米) | 光缆(SiPh,2公里) | 提升幅度 |
|---|---|---|---|
| 带宽密度(Gbps/mm²) | 0.5 | 5.0 | 10倍 |
| 每比特能耗(pJ/bit) | 5-8 | 1.5-2.5 | 降低60-70% |
| 传输距离(米) | 2-3 | 2000+ | 1000倍 |
| 延迟(纳秒/米) | 5 | 5 | 持平 |
| 热密度(W/cm²) | 1.5 | 0.3 | 降低5倍 |
数据要点: 光互连在带宽密度上提升10倍,每比特功耗降低60%以上,使其成为扩展至10万GPU集群以上规模的唯一可行路径。延迟持平至关重要——光互连不会增加延迟,只是消除了距离限制。
关键玩家与案例研究
NVIDIA 是最激进的采用者。其DGX SuperPOD架构已大规模使用光收发器用于NVLink和InfiniBand互连。对于GB200 NVL72机架,NVIDIA采用了来自Lumentum和Coherent Corp.的共封装光学技术,实现了全光背板,每对GPU的带宽达到1.8 TB/s。该公司的路线图包括到2027年将SiPh引擎直接集成到GPU基板上,这一举措将彻底消除电气瓶颈。
Broadcom 采取了不同的策略,专注于交换机ASIC的CPO技术。其Tomahawk 5交换机(51.2 Tbps)采用了与交换芯片共封装的光学引擎,与可插拔光学方案相比,面板功耗降低了40%。Broadcom的Sian平台(GitHub:broadcom/sian-cpo)提供了用于控制CPO模块的开源固件,已获得超过300个星标,并得到超大规模云服务商的积极贡献。
Intel 多年来一直在开发其Silicon Photonics 100G平台,目前正向云服务商出货400G和800G模块。Intel的优势在于其集成激光器技术,减少了分立组件的数量。然而,Intel在良率和成本方面一直面临挑战,使其在可插拔模块市场的份额保持在10%以下。
Cisco 和 Marvell 正在1.6T模块竞赛中展开竞争。Cisco的Acacia部门提供用于长途传输的相干可插拔模块,而Marvell的Nova平台则瞄准数据中心内部链路。两者都押注于每通道224 Gbps的SiPh技术,以期在2025年底前在单个OSFP模块中实现1.6T速率。
领先光互连解决方案对比
| 公司 | 技术 | 每模块带宽 | 能效(pJ/bit) | 关键客户 |
|---|---|---|---|---|
| NVIDIA(Lumentum/Coherent) | CPO + SiPh | 每对GPU 1.8 TB/s | 1.8 | 自用(DGX) |
| Broadcom | CPO(Tomahawk 5) | 每交换机51.2 Tbps | 2.0 | 超大规模云服务商 |
| Intel | SiPh 100G | 800 Gbps | 2.5 | 云服务商 |
| Marvell | SiPh Nova | 1.6 Tbps | 2.2 | Meta、Microsoft |
数据要点: NVIDIA和Broadcom在集成度(CPO)方面领先,而Intel和Marvell在分立模块方面领先。市场正在分化:超大规模云服务商正推动CPO以降低功耗,而传统云服务商仍更偏好可插拔模块的灵活性。