技术深度解析
AI硬件的制造是一个多层级的流程,涉及多项关键技术,每项技术都有其独特的工程挑战和地理集中度。
先进封装:小芯片革命
现代AI加速器如英伟达Blackwell B200和AMD MI300X并非单一芯片,而是通过高带宽互连连接的多个小芯片(chiplets)集合。这种被称为2.5D和3D封装的技术,需要极高的精度。台积电(TSMC)凭借其CoWoS(Chip-on-Wafer-on-Substrate)技术主导了这一领域。CoWoS将多个逻辑芯片和HBM堆栈并排放置在硅中介层上,实现高达2 TB/s的数据传输速度。该工艺涉及以微米级精度键合芯片,然后进行封装。台积电的CoWoS产能一直是主要瓶颈;该公司在2024年将产能翻倍至每月约3万片晶圆,但来自英伟达和AMD的需求仍超过供应。该领域一个重要的开源项目是GitHub上的Chiplet Design Exchange (CDX) 仓库,它提供了小芯片集成的标准接口,不过该项目仍处于早期阶段,行业采用有限。
高带宽内存(HBM):速度层
HBM对于以所需速度向AI加速器输送数据至关重要。韩国的三星和SK海力士控制着超过90%的HBM市场。当前一代的HBM3E垂直堆叠多达12个DRAM芯片,通过硅通孔(TSV)连接。SK海力士一直是英伟达H100和H200的主要供应商,而三星正在为未来设计提升产量。由于堆叠和测试的复杂性,HBM的制造良率低得出了名——大约在60-70%之间。这造成了供应限制,直接限制了可制造的AI加速器数量。
液冷:热挑战
一块英伟达H100 GPU在负载下功耗可达700W,一个10万块GPU的集群产生的热量超过70兆瓦——足以供应一个小型城市。传统风冷已不敷使用。中国已崛起为液冷领域的领导者,尤其是浸没式冷却,即将服务器浸入介电液体中。GDS Holdings和Chindata Group等公司已在其数据中心大规模部署浸没式冷却,实现了低至1.04的电源使用效率(PUE),而风冷设施的PUE通常在1.3-1.6之间。GitHub上的开源项目OpenCooling提供了浸没式冷却槽和流体管理系统的设计规范,随着数据中心运营商探索该技术,该项目已获得超过2000颗星。
数据表:AI硬件制造集中度
| 组件 | 关键地区 | 全球市场份额 | 关键公司 |
|---|---|---|---|
| 先进封装(CoWoS) | 台湾 | >90% | 台积电 |
| HBM内存 | 韩国 | >90% | SK海力士、三星 |
| 服务器组装 | 台湾、中国、越南 | >70% | 富士康、广达、纬创 |
| 液冷系统 | 中国 | >60% | GDS、Chindata、浪潮 |
| 稀土磁体 | 中国 | >80% | 包钢、JL MAG |
数据要点: AI硬件制造在亚洲的集中度极高,台湾和韩国在关键组件上拥有近乎垄断的地位。这为整个全球AI供应链创造了一个单点故障风险。
关键参与者与案例研究
台积电(台湾): AI硬件的关键。台积电的CoWoS产能直接决定了英伟达和AMD的AI加速器出货量。2024年,台积电投资300亿美元用于扩大先进封装产能,包括在台湾嘉义新建一座工厂。其3nm和即将推出的2nm工艺对未来AI芯片也至关重要。台积电的主导地位如此彻底,以至于英特尔也将部分封装业务外包给了台积电。
SK海力士(韩国): 英伟达的主要HBM3E供应商。该公司在韩国清州投资150亿美元新建了一条HBM生产线,计划于2025年开始量产。SK海力士的HBM3E每引脚运行速度为9.6 Gbps,每堆栈提供1.2 TB/s的带宽。
富士康(台湾/中国): 全球最大的电子制造商,为英伟达、亚马逊和微软组装AI服务器。其位于中国郑州的工厂以及越南和印度的新设施正在扩大产能以满足需求。2024年,富士康来自AI服务器的收入同比增长了40%。
GDS Holdings(中国): 领先的数据中心运营商,率先大规模应用浸没式冷却。GDS在上海运营着一座100兆瓦的浸没式冷却设施,为百度和字节跳动等中国AI公司提供服务。该公司1.04的PUE树立了能效标杆。
数据表:AI硬件公司对比
| 公司 | 核心产品 | 2024年AI相关收入 | 关键客户 | 产能扩张 |
|---|---|---|---|---|
| 台积电 | CoWoS、3nm/2nm | 约700亿美元 | 英伟达、AMD |