DeepSeek自建千兆瓦数据中心：AI基础设施军备竞赛升级

Q: 围绕“DeepSeek self-built vs cloud rental cost comparison”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

以DeepSeek-V3和R1模型闻名的中国AI实验室DeepSeek，近日公开发布土木工程师和数据中心架构师的招聘信息，明确目标是建设一座千兆瓦级数据中心。这与当前主流行业模式形成鲜明对比——包括OpenAI、Anthropic和Mistral在内的多数AI公司，均从AWS、Azure或Google Cloud等云服务商租赁算力。其背后逻辑有二：一是摆脱云GPU租赁成本持续攀升且不可预测的困境（该成本可吞噬AI初创公司60%-80%的烧钱率）；二是获得对决定模型训练效率的物理基础设施的绝对控制权——包括电力输送、热管理和GPU间网络。DeepSeek实际上是在复制此前行业巨头垂直整合的路径，但规模更为激进。

技术深度解析

DeepSeek的千兆瓦级数据中心野心，远不止于增加GPU数量，而是要从根本上重新设计整个计算堆栈。其核心技术挑战集中在三个相互关联的领域：电力输送、热管理和网络拓扑。

电力输送与密度： 一个千兆瓦级设施大约消耗1000兆瓦电力。作为对比，当前典型的大型AI训练集群（如Meta的16000 GPU集群）功耗约为30-50兆瓦。DeepSeek的目标是数量级上的跃升。这需要直接接入高压输电线路（通常为110千伏或更高），并配备现场变电站。关键指标是电能使用效率（PUE），现代设施行业平均水平在1.2-1.4之间。DeepSeek很可能将PUE目标设定在1.1以下，这需要先进的液冷和废热回收系统。据报道，该公司一直在试验直接芯片级液冷和浸没式液冷，这两种方式都能减少风扇和冷水机组消耗的能源。

下一代GPU的热管理： 下一代AI加速器——如NVIDIA的B200和未来的Rubin架构——每颗芯片的热设计功耗（TDP）将超过1000瓦。在此密度下，风冷已不切实际。DeepSeek招聘土木工程师的举动表明，他们正在探索定制化散热方案，可能包括后门热交换器和两相浸没式液冷。一个关键的开源参考是开放计算项目（OCP）的数据中心设计，该项目提供了高密度液冷的蓝图。GitHub仓库`opencomputeproject/OCP-Data-Center`已获得超过2000颗星，包含模块化数据中心的详细机械和电气规格。

网络拓扑与互连： 训练万亿参数模型需要巨大的GPU间带宽。DeepSeek当前的训练基础设施很可能使用NVIDIA的NVLink和InfiniBand。在千兆瓦规模下，网络将成为瓶颈。DeepSeek可能采用三层Clos拓扑（脊叶-超级脊）甚至Dragonfly+拓扑以最小化延迟。网络架构的选择——是使用NVIDIA的Quantum-2 InfiniBand还是基于以太网的解决方案（如Ultra Ethernet）——将对训练吞吐量产生深远影响。GitHub上的开源库`rdma-core`（超过1500颗星）对于在此类集群中优化基于融合以太网的RDMA（RoCE）至关重要。

数据要点： 下表比较了千兆瓦级AI数据中心的关键架构选择。

| 参数 | 传统云租赁 | DeepSeek自建（预计） |
|---|---|---|
| 电力容量 | 每集群30-50兆瓦 | 1000+兆瓦 |
| PUE目标 | 1.2-1.4 | <1.1 |
| 散热方式 | 风冷或简单液冷 | 两相浸没式或直接芯片级液冷 |
| 网络拓扑 | 共享、多租户 | 专用Dragonfly+或Clos |
| GPU密度 | 每机架1-2千瓦 | 每机架5-10千瓦 |
| 每FLOP成本（估算） | $1.00（基准） | $0.50-$0.70 |

数据要点： DeepSeek的自建设施相比云租赁，每FLOP成本可降低30%-50%，主要得益于更低的PUE、更高的GPU密度以及消除了云服务商的利润加成。

关键玩家与案例研究

DeepSeek并非首个追求AI基础设施垂直整合的公司。最著名的先例是微软与OpenAI的合作，由此建造了定制的Azure超级计算机。然而，微软的方式仍是云服务——OpenAI租赁算力。DeepSeek则更进一步，直接拥有物理设施。

案例研究：Google的TPU Pods
自2016年起，Google就开始为TPU训练自建数据中心。其TPU v4 Pods部署在配备液冷和光学互连的定制设施中。Google的优势在于同时设计芯片和数据中心。相比之下，DeepSeek很可能使用NVIDIA GPU（H100或B200），因此无法在芯片-数据中心接口层面进行同样紧密的优化。不过，DeepSeek仍可针对NVIDIA的参考架构优化电力输送和散热。

案例研究：Meta的AI研究超级集群（RSC）
Meta于2022年建造了RSC，一个16000 GPU的集群，但部署在现有数据中心内。Meta的做法是改造而非从头建造。DeepSeek的千兆瓦级项目更类似于特斯拉尝试的Dojo超级计算机——一个专为AI训练打造的目的地设施。特斯拉的Dojo因芯片设计问题和电力限制遭遇严重延误，这对DeepSeek而言是一个警示故事。

案例研究：xAI的孟菲斯数据中心
埃隆·马斯克的xAI于2024年在田纳西州孟菲斯快速建造了一个10万GPU集群。该项目证明了速度的可能性，但也引发了环境和监管方面的反弹。DeepSeek在中国运营，面临不同的监管障碍，包括电网容量和土地使用审批。

时间归档

延伸阅读

常见问题

这次公司发布“DeepSeek Builds Its Own GW Data Center: The New AI Infrastructure Arms Race”主要讲了什么？

DeepSeek, the Chinese AI lab behind the powerful DeepSeek-V3 and R1 models, has publicly posted job openings for civil engineers and data center architects, with the explicit goal…

从“DeepSeek GW data center civil engineer hiring”看，这家公司的这次发布为什么值得关注？

DeepSeek's GW-scale data center ambition is not merely about adding more GPUs; it's about rethinking the entire compute stack from the ground up. The core technical challenge lies in three interconnected domains: power d…

围绕“DeepSeek self-built vs cloud rental cost comparison”，这次发布可能带来哪些后续影响？