技术深度解析
传热物理是无情的。空气的比热容约为1.005 kJ/(kg·K),导热系数约为0.026 W/(m·K)。相比之下,水的比热容为4.18 kJ/(kg·K),导热系数为0.6 W/(m·K)。这意味着水每单位质量带走热量的效率大约是空气的4倍,导热能力是空气的20倍以上。当像NVIDIA B200这样的单个GPU产生1000W热量时,在合理的温差下,冷却它所需的空气体积变得不切实际——需要消耗大量功率并产生噪音的高速风扇。
目前主要有两种液冷架构:
1. 直接到芯片(冷板)冷却: 这是高密度AI集群最广泛采用的方法。一个通常由铜或铝制成的冷板直接安装在GPU和其他高发热组件上。冷却液(通常是水-乙二醇混合物)流经板内的微通道,直接从芯片吸收热量。加热后的冷却液被泵送到热交换器(CDU - 冷却液分配单元),在那里将热量传递给设施水回路,最终通过冷却塔或干冷器将热量排放到外部环境。这种方法效率高,可处理超过1000 W/cm²的热通量,并且对现有服务器外形尺寸的改动最小。
2. 浸没式冷却: 服务器完全浸没在介电(不导电)液体中,例如氟碳化合物或工程碳氢油。该液体在低温下沸腾(单相或两相),直接从所有组件吸收热量。两相浸没式冷却特别有效,因为从液体到气体的相变吸收了大量的潜热。虽然浸没式冷却提供了最高的冷却密度并完全消除了风扇,但它也带来了可维护性、组件兼容性(某些塑料会降解)以及所需液体体积等方面的挑战。
工程挑战: 向液冷的过渡要求重新设计服务器主板。必须集成冷却液分配歧管,这需要快速断开接头的精确对齐。泄漏检测系统是强制性的——一次泄漏就可能毁掉价值数百万美元的硬件。冷却液本身必须经过化学处理以防止腐蚀、生物生长和水垢。此外,整个数据中心的管道系统——泵、阀门、管道和热交换器——必须设计为高可靠性,因为泵故障可能导致快速的热失控。
数据表:冷却技术对比
| 技术 | 典型PUE | 最大机架密度 (kW) | 资本成本 (每kW) | 维护复杂度 | GPU温度稳定性 |
|---|---|---|---|---|---|
| 风冷 (CRAC/CRAH) | 1.4 - 1.8 | 15 - 30 | $8 - $12 | 低 | 中等(波动) |
| 直接到芯片液冷 | 1.05 - 1.15 | 50 - 150+ | $10 - $15 | 中 | 优秀(稳定) |
| 单相浸没式 | 1.02 - 1.10 | 100 - 200+ | $12 - $18 | 高 | 优秀(稳定) |
| 两相浸没式 | 1.01 - 1.05 | 150 - 300+ | $15 - $25 | 非常高 | 最佳(等温) |
数据要点: 对于当前大多数AI工作负载,直接到芯片冷却在密度、成本和可维护性之间提供了最佳平衡,而浸没式冷却则保留给那些PUE(电能使用效率)优化至关重要的最高密度部署。
相关开源项目: 开放计算项目(OCP)已发布多项液冷开放规范,包括定义了冷却液分配架构的“Open Rack V3”标准。其GitHub仓库(github.com/opencomputeproject)包含详细的机械图纸、热模型和最佳实践,已被主要超大规模云服务商采用。截至2026年5月,OCP液冷子项目已获得超过1200颗星,并有来自Meta、Google和Microsoft工程师的积极贡献。
关键玩家与案例研究
液冷生态系统由成熟的基础设施巨头和专业初创公司混合组成。
CoolIT Systems: 直接到芯片冷却领域的主导者,CoolIT为Dell、HPE和Lenovo等主要OEM厂商提供CDU和冷板。其Rack DLC(直接液冷)解决方案部署在全球一些最大的AI集群中。他们已向全球出货超过100万个冷却单元,专注于高可靠性、低泄漏设计。
Asetek: 数据中心液冷领域的先驱,Asetek的技术被许多超大规模云服务商使用。其专利技术专注于服务器级液冷循环。他们在HPC(高性能计算)市场拥有良好的记录,这已直接转化为AI部署。
LiquidStack: 浸没式冷却领域的领导者,LiquidStack的两相浸没技术已被比特币矿商Hut 8等公司采用,用于高密度计算场景。