液冷革命:AI数据中心为何再也“吹”不动风冷了

May 2026
归档:May 2026
AI加速器单芯片功耗突破1000W大关,传统风冷在物理层面已力不从心。AINews报道,液冷正从可选升级加速变为下一代智算中心的强制基础设施,从根本上重塑服务器架构、成本模型乃至数据中心的地理布局。

现代AI硬件的散热需求已达到临界点。以NVIDIA B200 GPU为例,其热设计功耗(TDP)已超过1000W,而搭载这些芯片的机架功率轻松突破100kW。即便使用高速风扇,风冷也无法有效消散如此高的热密度,不仅消耗巨大能源,还会产生热点导致性能降频。这并非一次边际改进周期,而是一场由物理定律驱动的基础设施革命。

液冷,尤其是直接到芯片的冷板技术,现已成为高密度AI集群的事实标准。这一转型不仅仅关乎更好的散热,它迫使服务器主板布局必须彻底重新设计以容纳冷却液分配,推动数据中心运营商优先考虑水资源获取和废水处理,并催生了一个全新的供应链生态系统——从冷却液分配单元(CDU)到防漏快速接头,再到介电冷却液本身。液冷正在将数据中心从一个“吹风的盒子”转变为一个“流水的系统”,其影响深远,甚至改变了数据中心的地理选址逻辑:过去靠近廉价电力和网络枢纽,现在还需靠近充足的水源。

技术深度解析

传热物理是无情的。空气的比热容约为1.005 kJ/(kg·K),导热系数约为0.026 W/(m·K)。相比之下,水的比热容为4.18 kJ/(kg·K),导热系数为0.6 W/(m·K)。这意味着水每单位质量带走热量的效率大约是空气的4倍,导热能力是空气的20倍以上。当像NVIDIA B200这样的单个GPU产生1000W热量时,在合理的温差下,冷却它所需的空气体积变得不切实际——需要消耗大量功率并产生噪音的高速风扇。

目前主要有两种液冷架构:

1. 直接到芯片(冷板)冷却: 这是高密度AI集群最广泛采用的方法。一个通常由铜或铝制成的冷板直接安装在GPU和其他高发热组件上。冷却液(通常是水-乙二醇混合物)流经板内的微通道,直接从芯片吸收热量。加热后的冷却液被泵送到热交换器(CDU - 冷却液分配单元),在那里将热量传递给设施水回路,最终通过冷却塔或干冷器将热量排放到外部环境。这种方法效率高,可处理超过1000 W/cm²的热通量,并且对现有服务器外形尺寸的改动最小。

2. 浸没式冷却: 服务器完全浸没在介电(不导电)液体中,例如氟碳化合物或工程碳氢油。该液体在低温下沸腾(单相或两相),直接从所有组件吸收热量。两相浸没式冷却特别有效,因为从液体到气体的相变吸收了大量的潜热。虽然浸没式冷却提供了最高的冷却密度并完全消除了风扇,但它也带来了可维护性、组件兼容性(某些塑料会降解)以及所需液体体积等方面的挑战。

工程挑战: 向液冷的过渡要求重新设计服务器主板。必须集成冷却液分配歧管,这需要快速断开接头的精确对齐。泄漏检测系统是强制性的——一次泄漏就可能毁掉价值数百万美元的硬件。冷却液本身必须经过化学处理以防止腐蚀、生物生长和水垢。此外,整个数据中心的管道系统——泵、阀门、管道和热交换器——必须设计为高可靠性,因为泵故障可能导致快速的热失控。

数据表:冷却技术对比

| 技术 | 典型PUE | 最大机架密度 (kW) | 资本成本 (每kW) | 维护复杂度 | GPU温度稳定性 |
|---|---|---|---|---|---|
| 风冷 (CRAC/CRAH) | 1.4 - 1.8 | 15 - 30 | $8 - $12 | 低 | 中等(波动) |
| 直接到芯片液冷 | 1.05 - 1.15 | 50 - 150+ | $10 - $15 | 中 | 优秀(稳定) |
| 单相浸没式 | 1.02 - 1.10 | 100 - 200+ | $12 - $18 | 高 | 优秀(稳定) |
| 两相浸没式 | 1.01 - 1.05 | 150 - 300+ | $15 - $25 | 非常高 | 最佳(等温) |

数据要点: 对于当前大多数AI工作负载,直接到芯片冷却在密度、成本和可维护性之间提供了最佳平衡,而浸没式冷却则保留给那些PUE(电能使用效率)优化至关重要的最高密度部署。

相关开源项目: 开放计算项目(OCP)已发布多项液冷开放规范,包括定义了冷却液分配架构的“Open Rack V3”标准。其GitHub仓库(github.com/opencomputeproject)包含详细的机械图纸、热模型和最佳实践,已被主要超大规模云服务商采用。截至2026年5月,OCP液冷子项目已获得超过1200颗星,并有来自Meta、Google和Microsoft工程师的积极贡献。

关键玩家与案例研究

液冷生态系统由成熟的基础设施巨头和专业初创公司混合组成。

CoolIT Systems: 直接到芯片冷却领域的主导者,CoolIT为Dell、HPE和Lenovo等主要OEM厂商提供CDU和冷板。其Rack DLC(直接液冷)解决方案部署在全球一些最大的AI集群中。他们已向全球出货超过100万个冷却单元,专注于高可靠性、低泄漏设计。

Asetek: 数据中心液冷领域的先驱,Asetek的技术被许多超大规模云服务商使用。其专利技术专注于服务器级液冷循环。他们在HPC(高性能计算)市场拥有良好的记录,这已直接转化为AI部署。

LiquidStack: 浸没式冷却领域的领导者,LiquidStack的两相浸没技术已被比特币矿商Hut 8等公司采用,用于高密度计算场景。

时间归档

May 20261718 篇已发布文章

延伸阅读

超越电力:AI算力隐藏成本结构浮出水面公众讨论总聚焦于AI惊人的耗电量,但一份全面的行业分析揭示了更复杂的现实:对于尖端算力而言,电力成本可能仅占其全生命周期总费用的5%。真正的财务冰山潜藏在半导体制造、先进热管理以及初具雏形的轨道基础设施之中。百度AI转向:搜索巨头能否抵御大模型变现的诱惑?百度成立大模型委员会,试图重组AI业务,摆脱核心搜索业务的短期变现压力。然而,这一结构性变革能否克服根深蒂固的“流量变现”文化——这种文化已让百度在中国AI竞赛中失去先发优势——仍是未知数。AI模型在压力下集体“造假”:AINews压力测试揭示30%数据捏造率AINews对七款主流大语言模型进行了极限压力测试,结果令人震惊:超过30%的回复包含捏造数据。当被推至能力边界之外时,这些模型系统性地选择编造信息而非承认无知,暴露出当前AI对齐机制的根本性缺陷。Token定价已死:AI的未来属于按结果付费AI行业正经历一场静默革命:按Token计费模式正在消亡。用户越来越要求为结果付费,而非输入输出量。这一从成本定价到价值定价的转变,将重新定义整个AI栈的产品设计、商业模式和竞争策略。

常见问题

这篇关于“Liquid Cooling Revolution: Why AI Data Centers Can No Longer Afford Air Cooling”的文章讲了什么?

The thermal demands of modern AI hardware have reached a tipping point. NVIDIA's B200 GPU, for instance, has a thermal design power (TDP) exceeding 1000W, and racks packed with the…

从“liquid cooling vs air cooling for AI data center”看,这件事为什么值得关注?

The physics of heat transfer is unforgiving. Air has a specific heat capacity of roughly 1.005 kJ/(kg·K) and a thermal conductivity of about 0.026 W/(m·K). Water, by contrast, has a specific heat capacity of 4.18 kJ/(kg·…

如果想继续追踪“direct to chip cooling vs immersion cooling cost comparison”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。