DeepSeek自建千兆瓦数据中心:AI基础设施军备竞赛升级

June 2026
DeepSeekAI infrastructure归档:June 2026
中国AI实验室DeepSeek正招募土木工程师,计划自建千兆瓦级数据中心,标志着从云租赁向全栈基础设施所有权的根本性转变。此举旨在锁定长期成本优势,并掌控下一代模型训练所需的电力、散热与网络架构。

以DeepSeek-V3和R1模型闻名的中国AI实验室DeepSeek,近日公开发布土木工程师和数据中心架构师的招聘信息,明确目标是建设一座千兆瓦级数据中心。这与当前主流行业模式形成鲜明对比——包括OpenAI、Anthropic和Mistral在内的多数AI公司,均从AWS、Azure或Google Cloud等云服务商租赁算力。其背后逻辑有二:一是摆脱云GPU租赁成本持续攀升且不可预测的困境(该成本可吞噬AI初创公司60%-80%的烧钱率);二是获得对决定模型训练效率的物理基础设施的绝对控制权——包括电力输送、热管理和GPU间网络。DeepSeek实际上是在复制此前行业巨头垂直整合的路径,但规模更为激进。

技术深度解析

DeepSeek的千兆瓦级数据中心野心,远不止于增加GPU数量,而是要从根本上重新设计整个计算堆栈。其核心技术挑战集中在三个相互关联的领域:电力输送、热管理和网络拓扑。

电力输送与密度: 一个千兆瓦级设施大约消耗1000兆瓦电力。作为对比,当前典型的大型AI训练集群(如Meta的16000 GPU集群)功耗约为30-50兆瓦。DeepSeek的目标是数量级上的跃升。这需要直接接入高压输电线路(通常为110千伏或更高),并配备现场变电站。关键指标是电能使用效率(PUE),现代设施行业平均水平在1.2-1.4之间。DeepSeek很可能将PUE目标设定在1.1以下,这需要先进的液冷和废热回收系统。据报道,该公司一直在试验直接芯片级液冷和浸没式液冷,这两种方式都能减少风扇和冷水机组消耗的能源。

下一代GPU的热管理: 下一代AI加速器——如NVIDIA的B200和未来的Rubin架构——每颗芯片的热设计功耗(TDP)将超过1000瓦。在此密度下,风冷已不切实际。DeepSeek招聘土木工程师的举动表明,他们正在探索定制化散热方案,可能包括后门热交换器和两相浸没式液冷。一个关键的开源参考是开放计算项目(OCP)的数据中心设计,该项目提供了高密度液冷的蓝图。GitHub仓库`opencomputeproject/OCP-Data-Center`已获得超过2000颗星,包含模块化数据中心的详细机械和电气规格。

网络拓扑与互连: 训练万亿参数模型需要巨大的GPU间带宽。DeepSeek当前的训练基础设施很可能使用NVIDIA的NVLink和InfiniBand。在千兆瓦规模下,网络将成为瓶颈。DeepSeek可能采用三层Clos拓扑(脊叶-超级脊)甚至Dragonfly+拓扑以最小化延迟。网络架构的选择——是使用NVIDIA的Quantum-2 InfiniBand还是基于以太网的解决方案(如Ultra Ethernet)——将对训练吞吐量产生深远影响。GitHub上的开源库`rdma-core`(超过1500颗星)对于在此类集群中优化基于融合以太网的RDMA(RoCE)至关重要。

数据要点: 下表比较了千兆瓦级AI数据中心的关键架构选择。

| 参数 | 传统云租赁 | DeepSeek自建(预计) |
|---|---|---|
| 电力容量 | 每集群30-50兆瓦 | 1000+兆瓦 |
| PUE目标 | 1.2-1.4 | <1.1 |
| 散热方式 | 风冷或简单液冷 | 两相浸没式或直接芯片级液冷 |
| 网络拓扑 | 共享、多租户 | 专用Dragonfly+或Clos |
| GPU密度 | 每机架1-2千瓦 | 每机架5-10千瓦 |
| 每FLOP成本(估算) | $1.00(基准) | $0.50-$0.70 |

数据要点: DeepSeek的自建设施相比云租赁,每FLOP成本可降低30%-50%,主要得益于更低的PUE、更高的GPU密度以及消除了云服务商的利润加成。

关键玩家与案例研究

DeepSeek并非首个追求AI基础设施垂直整合的公司。最著名的先例是微软与OpenAI的合作,由此建造了定制的Azure超级计算机。然而,微软的方式仍是云服务——OpenAI租赁算力。DeepSeek则更进一步,直接拥有物理设施。

案例研究:Google的TPU Pods
自2016年起,Google就开始为TPU训练自建数据中心。其TPU v4 Pods部署在配备液冷和光学互连的定制设施中。Google的优势在于同时设计芯片和数据中心。相比之下,DeepSeek很可能使用NVIDIA GPU(H100或B200),因此无法在芯片-数据中心接口层面进行同样紧密的优化。不过,DeepSeek仍可针对NVIDIA的参考架构优化电力输送和散热。

案例研究:Meta的AI研究超级集群(RSC)
Meta于2022年建造了RSC,一个16000 GPU的集群,但部署在现有数据中心内。Meta的做法是改造而非从头建造。DeepSeek的千兆瓦级项目更类似于特斯拉尝试的Dojo超级计算机——一个专为AI训练打造的目的地设施。特斯拉的Dojo因芯片设计问题和电力限制遭遇严重延误,这对DeepSeek而言是一个警示故事。

案例研究:xAI的孟菲斯数据中心
埃隆·马斯克的xAI于2024年在田纳西州孟菲斯快速建造了一个10万GPU集群。该项目证明了速度的可能性,但也引发了环境和监管方面的反弹。DeepSeek在中国运营,面临不同的监管障碍,包括电网容量和土地使用审批。

相关专题

DeepSeek65 篇相关文章AI infrastructure288 篇相关文章

时间归档

June 2026807 篇已发布文章

延伸阅读

DeepSeek自动研究代理:当AI写出论文的99%,诺贝尔奖该归谁?DeepSeek开发了一款内部“自动研究”代理,仅需两小时的人类概念输入,即可自主完成一篇学术论文的99%。这一工具将研究者的角色从执行者重新定义为战略家,引发了关于作者身份、原创性乃至科学发现本质的紧迫追问。异构计算成为AI新基石:GPU独霸时代终结随着AI工作负载从文本生成扩展到视频生成和世界模型,中科元机(Taichu Yuanji)的Hong Yuan直言:异构计算不再是可选项,而是战略必选项。AINews深度剖析这场架构变革、关键玩家以及驱动这一根本性转变的市场力量。AI's Four Pillars Converge: Agents, Multimodal, Apps, and Compute Unite to Define the Next DecadeThe AI industry stands at a critical inflection point where autonomous agents, multimodal models, real-world application一人一库:Kimi如何用AI基础设施扛住万倍并发Kimi悄然部署了“一人一库”架构,为每个AI智能体会话创建专属轻量级数据库实例。这一设计实现了绝对数据隔离、亚100毫秒延迟和近乎为零的每用户存储成本,标志着AI从共享模型向个人数据主权的转变。

常见问题

这次公司发布“DeepSeek Builds Its Own GW Data Center: The New AI Infrastructure Arms Race”主要讲了什么?

DeepSeek, the Chinese AI lab behind the powerful DeepSeek-V3 and R1 models, has publicly posted job openings for civil engineers and data center architects, with the explicit goal…

从“DeepSeek GW data center civil engineer hiring”看,这家公司的这次发布为什么值得关注?

DeepSeek's GW-scale data center ambition is not merely about adding more GPUs; it's about rethinking the entire compute stack from the ground up. The core technical challenge lies in three interconnected domains: power d…

围绕“DeepSeek self-built vs cloud rental cost comparison”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。