中国重返超算巅峰:2 EFLOPS级系统重塑全球AI算力格局

June 2026
归档:June 2026
时隔九年,中国凭借一套峰值性能超过2 exaflops的超算系统重返全球超算之巅。这一成就标志着国产芯片架构与异构计算走向成熟,同时也引发了关于能效、软件生态成熟度以及算力主导权地缘政治博弈的深刻思考。

在全球高性能计算(HPC)版图被重新书写的当下,中国已部署新一代超算系统,其峰值性能超过2 exaflops,自2017年以来首次夺回TOP500榜首位置。这台完全基于国产处理器与新型异构计算架构构建的机器,标志着一个战略转折点。与依赖国内外芯片混合方案的前代系统不同,新系统通过统一架构实现性能突破——该架构将通用CPU核心、专用AI加速器以及以内存为中心的互连技术紧密耦合。其影响远不止于基准测试的排名之争。这一算力规模——相当于全球峰值算力总和——将直接推动气候模拟、药物研发、核聚变研究等科学计算领域实现跨越式突破,同时为训练下一代万亿参数级大语言模型(LLM)提供关键基础设施。然而,其约38兆瓦的预估功耗也引发了关于可持续性的严肃讨论。在能效方面,该系统以约52 GFLOPS/W的表现落后于美国Frontier超算的80 GFLOPS/W,凸显出散热与电源管理领域仍有优化空间。从地缘政治角度看,这一部署打破了西方对先进计算技术的出口管制逻辑,证明中国已建立起从芯片设计到系统集成的自主供应链。但软件生态的成熟度仍是关键短板——尽管PyTorch和TensorFlow等主流AI框架已完成移植,其性能仍落后于成熟的CUDA生态。

技术深度解析

这套2 EFLOPS系统并非简单的集群规模扩展,而是对计算、内存与散热三者交互方式的根本性重构。其核心是一代新型国产处理器——很可能是SW26010众核架构的变体,但经过了重大增强。此前用于神威·太湖之光的原始SW26010芯片每颗集成260个核心,而新设计据称整合了更均衡的通用处理单元(PE)与专用矩阵加速单元。关键的架构创新在于三级内存层次:每个计算节点配备本地便笺式存储器(8-16 GB)、共享高带宽内存池(HBM2e或HBM3,每节点带宽2-3 TB/s),以及基于专有光互连的全局分布式共享内存层。这消除了传统CPU与GPU之间数据传输的瓶颈——这一瓶颈困扰着大多数基于独立加速器的超算设计。

| 指标 | 前代系统(神威·太湖之光) | 新2 EFLOPS系统 | 行业参考(Frontier) |
|---|---|---|---|
| 峰值性能 | 93 PFLOPS | 2,000+ PFLOPS | 1,680 PFLOPS |
| 功耗 | 15.3 MW | ~38 MW(估算) | 21 MW |
| 能效 | 6.1 GFLOPS/W | ~52 GFLOPS/W | 80 GFLOPS/W |
| 节点架构 | 260核CPU | 混合CPU+矩阵加速器 | AMD EPYC + MI250X GPU |
| 互连 | 定制(Sunway) | 定制光互连+类NVLink | Slingshot-11 |
| 每节点HBM容量 | 32 GB | 128 GB(估算) | 128 GB |

数据要点: 新系统峰值性能约为前代的12倍,但能效落后Frontier约35%。这表明虽然计算密度大幅提升,但热管理与供电系统仍有优化空间。不过,定制光互连的使用赋予中国独特优势——可在超过10,000个节点的规模下避免电信号传输的延迟惩罚。

在散热方面,该系统采用混合浸没式+直接液体冷却方案。关键计算节点浸没在介电液体中,直接吸收芯片热量;光收发器和电源则使用冷板液冷。这种双管齐下的方式使系统能够在每个插槽600W的热设计功耗(TDP)下运行,而无需使用特殊材料。散热基础设施本身堪称工程奇迹:闭环系统回收废热用于所在城市的区域供暖,整体电能使用效率(PUE)达到1.04——与顶级超大规模数据中心相当。

一个值得关注的软件贡献是开源仓库 Sunway Parallel Studio(GitHub: sunway-parallel-studio,约4,200星),它为新型架构提供了编译器框架、性能分析器和运行时库。该工具链支持Fortran、C和Python代码的自动并行化,并对科学模拟中常见的模板计算和稀疏矩阵运算进行了特定优化。社区已将关键HPC基准测试(HPL、HPCG、MiniMD)以及多个AI框架(PyTorch、TensorFlow、JAX)移植到该平台,不过与CUDA系统的性能对标仍在进行中。

关键参与者与案例研究

这台超算的研发是多家中字头企业与研究机构协同作战的成果。国家并行计算机工程技术研究中心(NRCPC)主导架构设计,上海高性能集成电路设计中心则采用7nm级工艺(很可能来自中芯国际,但具体节点保密)制造处理器。该系统部署于国家超级计算无锡中心,与神威·太湖之光原址相同。

| 机构 | 角色 | 过往记录 |
|---|---|---|
| NRCPC | 架构设计与系统集成 | 设计神威·太湖之光(2016)、天河二号(2013) |
| 中芯国际 | 处理器制造 | 7nm级N+2工艺;良率提升至约75% |
| 华为 | 互连与光学组件 | 海思光收发器;每通道800Gbps |
| 阿里云 | AI工作负载优化 | 移植PAI平台;声称LLM训练性能达到CUDA的90% |
| 清华大学 | 散热与电源系统 | 开发浸没式冷却,TCO比风冷降低40% |

数据要点: 阿里云的参与尤其耐人寻味。这表明该系统不仅用于科学研究,更旨在支撑商业AI工作负载。阿里云为其通义千问LLM提供动力的PAI平台,已针对新架构进行优化。早期基准测试显示,在4,096个节点上训练70B参数模型,模型FLOPs利用率(MFU)达到58%,而同等NVIDIA H100集群为62%。差距正在缩小,但软件优化仍是关键战场。

时间归档

June 20262402 篇已发布文章

延伸阅读

3200亿豪赌:安徽大佬如何改写中国AI算力版图一位安徽实业家押注3200亿元,打造超大规模AI算力集群。这不仅是资本赌局,更是一份算力军备竞赛的宣战书——试图将内陆省份推上AI基础设施的新前线。AI智能体时代呼唤乐高式模块化芯片架构革命AI智能体执行复杂任务的时代,正倒逼计算硬件进行根本性重构。我们的分析揭示,传统单片芯片已无法适应智能体异构、多步骤的工作流程,驱动行业转向乐高式的模块化架构——动态组合专用计算单元,以实现前所未有的效率与灵活性。xAI以2500亿美元估值关停,SpaceXAI崛起称霸AI算力基础设施一场戏剧性的转折:估值高达2500亿美元的AI明星创业公司xAI正式关停。但这并非简单的失败,而是算力基础设施巨头SpaceXAI的诞生,标志着行业从模型竞争向物理计算资源控制的范式转移。东旭光电380亿豪赌AI算力:一家工业巨头能否在算力军备竞赛中幸存?传统工业集团东旭光电斥资2800亿元押注AI算力基础设施,同时背负155亿元有息债务。这不仅是资产重组——更是一场杠杆赌注,赌的是GPU集群的饥渴需求将超越高杠杆、技术复杂性和超大规模云服务商竞争带来的风险。

常见问题

这篇关于“China's Exascale Return: 2 EFLOPS Supercomputer Reshapes Global AI Compute Race”的文章讲了什么?

In a development that reorders the global high-performance computing (HPC) hierarchy, China has deployed a new-generation supercomputer that delivers over 2 exaflops of peak perfor…

从“How does China's 2 EFLOPS supercomputer compare to Frontier in energy efficiency?”看,这件事为什么值得关注?

The 2 EFLOPS system is not merely a scaled-up cluster; it is a fundamental rethinking of how compute, memory, and cooling interact. At its core lies a new generation of domestic processors—likely a variant of the SW26010…

如果想继续追踪“Which Chinese AI companies will benefit most from this exascale compute capacity?”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。