液冷革命：AI数据中心为何再也“吹”不动风冷了

现代AI硬件的散热需求已达到临界点。以NVIDIA B200 GPU为例，其热设计功耗（TDP）已超过1000W，而搭载这些芯片的机架功率轻松突破100kW。即便使用高速风扇，风冷也无法有效消散如此高的热密度，不仅消耗巨大能源，还会产生热点导致性能降频。这并非一次边际改进周期，而是一场由物理定律驱动的基础设施革命。

液冷，尤其是直接到芯片的冷板技术，现已成为高密度AI集群的事实标准。这一转型不仅仅关乎更好的散热，它迫使服务器主板布局必须彻底重新设计以容纳冷却液分配，推动数据中心运营商优先考虑水资源获取和废水处理，并催生了一个全新的供应链生态系统——从冷却液分配单元（CDU）到防漏快速接头，再到介电冷却液本身。液冷正在将数据中心从一个“吹风的盒子”转变为一个“流水的系统”，其影响深远，甚至改变了数据中心的地理选址逻辑：过去靠近廉价电力和网络枢纽，现在还需靠近充足的水源。

技术深度解析

传热物理是无情的。空气的比热容约为1.005 kJ/(kg·K)，导热系数约为0.026 W/(m·K)。相比之下，水的比热容为4.18 kJ/(kg·K)，导热系数为0.6 W/(m·K)。这意味着水每单位质量带走热量的效率大约是空气的4倍，导热能力是空气的20倍以上。当像NVIDIA B200这样的单个GPU产生1000W热量时，在合理的温差下，冷却它所需的空气体积变得不切实际——需要消耗大量功率并产生噪音的高速风扇。

目前主要有两种液冷架构：

1. 直接到芯片（冷板）冷却： 这是高密度AI集群最广泛采用的方法。一个通常由铜或铝制成的冷板直接安装在GPU和其他高发热组件上。冷却液（通常是水-乙二醇混合物）流经板内的微通道，直接从芯片吸收热量。加热后的冷却液被泵送到热交换器（CDU - 冷却液分配单元），在那里将热量传递给设施水回路，最终通过冷却塔或干冷器将热量排放到外部环境。这种方法效率高，可处理超过1000 W/cm²的热通量，并且对现有服务器外形尺寸的改动最小。

2. 浸没式冷却： 服务器完全浸没在介电（不导电）液体中，例如氟碳化合物或工程碳氢油。该液体在低温下沸腾（单相或两相），直接从所有组件吸收热量。两相浸没式冷却特别有效，因为从液体到气体的相变吸收了大量的潜热。虽然浸没式冷却提供了最高的冷却密度并完全消除了风扇，但它也带来了可维护性、组件兼容性（某些塑料会降解）以及所需液体体积等方面的挑战。

工程挑战： 向液冷的过渡要求重新设计服务器主板。必须集成冷却液分配歧管，这需要快速断开接头的精确对齐。泄漏检测系统是强制性的——一次泄漏就可能毁掉价值数百万美元的硬件。冷却液本身必须经过化学处理以防止腐蚀、生物生长和水垢。此外，整个数据中心的管道系统——泵、阀门、管道和热交换器——必须设计为高可靠性，因为泵故障可能导致快速的热失控。

数据表：冷却技术对比

| 技术 | 典型PUE | 最大机架密度 (kW) | 资本成本 (每kW) | 维护复杂度 | GPU温度稳定性 |
|---|---|---|---|---|---|
| 风冷 (CRAC/CRAH) | 1.4 - 1.8 | 15 - 30 | $8 - $12 | 低 | 中等（波动） |
| 直接到芯片液冷 | 1.05 - 1.15 | 50 - 150+ | $10 - $15 | 中 | 优秀（稳定） |
| 单相浸没式 | 1.02 - 1.10 | 100 - 200+ | $12 - $18 | 高 | 优秀（稳定） |
| 两相浸没式 | 1.01 - 1.05 | 150 - 300+ | $15 - $25 | 非常高 | 最佳（等温） |

数据要点： 对于当前大多数AI工作负载，直接到芯片冷却在密度、成本和可维护性之间提供了最佳平衡，而浸没式冷却则保留给那些PUE（电能使用效率）优化至关重要的最高密度部署。

相关开源项目： 开放计算项目（OCP）已发布多项液冷开放规范，包括定义了冷却液分配架构的“Open Rack V3”标准。其GitHub仓库（github.com/opencomputeproject）包含详细的机械图纸、热模型和最佳实践，已被主要超大规模云服务商采用。截至2026年5月，OCP液冷子项目已获得超过1200颗星，并有来自Meta、Google和Microsoft工程师的积极贡献。

关键玩家与案例研究

液冷生态系统由成熟的基础设施巨头和专业初创公司混合组成。

CoolIT Systems： 直接到芯片冷却领域的主导者，CoolIT为Dell、HPE和Lenovo等主要OEM厂商提供CDU和冷板。其Rack DLC（直接液冷）解决方案部署在全球一些最大的AI集群中。他们已向全球出货超过100万个冷却单元，专注于高可靠性、低泄漏设计。

Asetek： 数据中心液冷领域的先驱，Asetek的技术被许多超大规模云服务商使用。其专利技术专注于服务器级液冷循环。他们在HPC（高性能计算）市场拥有良好的记录，这已直接转化为AI部署。

LiquidStack： 浸没式冷却领域的领导者，LiquidStack的两相浸没技术已被比特币矿商Hut 8等公司采用，用于高密度计算场景。

时间归档

延伸阅读

常见问题

这篇关于“Liquid Cooling Revolution: Why AI Data Centers Can No Longer Afford Air Cooling”的文章讲了什么？

The thermal demands of modern AI hardware have reached a tipping point. NVIDIA's B200 GPU, for instance, has a thermal design power (TDP) exceeding 1000W, and racks packed with the…

从“liquid cooling vs air cooling for AI data center”看，这件事为什么值得关注？

The physics of heat transfer is unforgiving. Air has a specific heat capacity of roughly 1.005 kJ/(kg·K) and a thermal conductivity of about 0.026 W/(m·K). Water, by contrast, has a specific heat capacity of 4.18 kJ/(kg·…

如果想继续追踪“direct to chip cooling vs immersion cooling cost comparison”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。