中国重返超算巅峰：2 EFLOPS级系统重塑全球AI算力格局

2026年6月24日 07:31 AINews June 2026

时隔九年，中国凭借一套峰值性能超过2 exaflops的超算系统重返全球超算之巅。这一成就标志着国产芯片架构与异构计算走向成熟，同时也引发了关于能效、软件生态成熟度以及算力主导权地缘政治博弈的深刻思考。

在全球高性能计算（HPC）版图被重新书写的当下，中国已部署新一代超算系统，其峰值性能超过2 exaflops，自2017年以来首次夺回TOP500榜首位置。这台完全基于国产处理器与新型异构计算架构构建的机器，标志着一个战略转折点。与依赖国内外芯片混合方案的前代系统不同，新系统通过统一架构实现性能突破——该架构将通用CPU核心、专用AI加速器以及以内存为中心的互连技术紧密耦合。其影响远不止于基准测试的排名之争。这一算力规模——相当于全球峰值算力总和——将直接推动气候模拟、药物研发、核聚变研究等科学计算领域实现跨越式突破，同时为训练下一代万亿参数级大语言模型（LLM）提供关键基础设施。然而，其约38兆瓦的预估功耗也引发了关于可持续性的严肃讨论。在能效方面，该系统以约52 GFLOPS/W的表现落后于美国Frontier超算的80 GFLOPS/W，凸显出散热与电源管理领域仍有优化空间。从地缘政治角度看，这一部署打破了西方对先进计算技术的出口管制逻辑，证明中国已建立起从芯片设计到系统集成的自主供应链。但软件生态的成熟度仍是关键短板——尽管PyTorch和TensorFlow等主流AI框架已完成移植，其性能仍落后于成熟的CUDA生态。

技术深度解析

这套2 EFLOPS系统并非简单的集群规模扩展，而是对计算、内存与散热三者交互方式的根本性重构。其核心是一代新型国产处理器——很可能是SW26010众核架构的变体，但经过了重大增强。此前用于神威·太湖之光的原始SW26010芯片每颗集成260个核心，而新设计据称整合了更均衡的通用处理单元（PE）与专用矩阵加速单元。关键的架构创新在于三级内存层次：每个计算节点配备本地便笺式存储器（8-16 GB）、共享高带宽内存池（HBM2e或HBM3，每节点带宽2-3 TB/s），以及基于专有光互连的全局分布式共享内存层。这消除了传统CPU与GPU之间数据传输的瓶颈——这一瓶颈困扰着大多数基于独立加速器的超算设计。

| 指标 | 前代系统（神威·太湖之光） | 新2 EFLOPS系统 | 行业参考（Frontier） |
|---|---|---|---|
| 峰值性能 | 93 PFLOPS | 2,000+ PFLOPS | 1,680 PFLOPS |
| 功耗 | 15.3 MW | ~38 MW（估算） | 21 MW |
| 能效 | 6.1 GFLOPS/W | ~52 GFLOPS/W | 80 GFLOPS/W |
| 节点架构 | 260核CPU | 混合CPU+矩阵加速器 | AMD EPYC + MI250X GPU |
| 互连 | 定制（Sunway） | 定制光互连+类NVLink | Slingshot-11 |
| 每节点HBM容量 | 32 GB | 128 GB（估算） | 128 GB |

数据要点： 新系统峰值性能约为前代的12倍，但能效落后Frontier约35%。这表明虽然计算密度大幅提升，但热管理与供电系统仍有优化空间。不过，定制光互连的使用赋予中国独特优势——可在超过10,000个节点的规模下避免电信号传输的延迟惩罚。

在散热方面，该系统采用混合浸没式+直接液体冷却方案。关键计算节点浸没在介电液体中，直接吸收芯片热量；光收发器和电源则使用冷板液冷。这种双管齐下的方式使系统能够在每个插槽600W的热设计功耗（TDP）下运行，而无需使用特殊材料。散热基础设施本身堪称工程奇迹：闭环系统回收废热用于所在城市的区域供暖，整体电能使用效率（PUE）达到1.04——与顶级超大规模数据中心相当。

一个值得关注的软件贡献是开源仓库 Sunway Parallel Studio（GitHub: sunway-parallel-studio，约4,200星），它为新型架构提供了编译器框架、性能分析器和运行时库。该工具链支持Fortran、C和Python代码的自动并行化，并对科学模拟中常见的模板计算和稀疏矩阵运算进行了特定优化。社区已将关键HPC基准测试（HPL、HPCG、MiniMD）以及多个AI框架（PyTorch、TensorFlow、JAX）移植到该平台，不过与CUDA系统的性能对标仍在进行中。

关键参与者与案例研究

这台超算的研发是多家中字头企业与研究机构协同作战的成果。国家并行计算机工程技术研究中心（NRCPC）主导架构设计，上海高性能集成电路设计中心则采用7nm级工艺（很可能来自中芯国际，但具体节点保密）制造处理器。该系统部署于国家超级计算无锡中心，与神威·太湖之光原址相同。

| 机构 | 角色 | 过往记录 |
|---|---|---|
| NRCPC | 架构设计与系统集成 | 设计神威·太湖之光（2016）、天河二号（2013） |
| 中芯国际 | 处理器制造 | 7nm级N+2工艺；良率提升至约75% |
| 华为 | 互连与光学组件 | 海思光收发器；每通道800Gbps |
| 阿里云 | AI工作负载优化 | 移植PAI平台；声称LLM训练性能达到CUDA的90% |
| 清华大学 | 散热与电源系统 | 开发浸没式冷却，TCO比风冷降低40% |

数据要点： 阿里云的参与尤其耐人寻味。这表明该系统不仅用于科学研究，更旨在支撑商业AI工作负载。阿里云为其通义千问LLM提供动力的PAI平台，已针对新架构进行优化。早期基准测试显示，在4,096个节点上训练70B参数模型，模型FLOPs利用率（MFU）达到58%，而同等NVIDIA H100集群为62%。差距正在缩小，但软件优化仍是关键战场。

常见问题

这篇关于“China's Exascale Return: 2 EFLOPS Supercomputer Reshapes Global AI Compute Race”的文章讲了什么？

In a development that reorders the global high-performance computing (HPC) hierarchy, China has deployed a new-generation supercomputer that delivers over 2 exaflops of peak perfor…

从“How does China's 2 EFLOPS supercomputer compare to Frontier in energy efficiency?”看，这件事为什么值得关注？

The 2 EFLOPS system is not merely a scaled-up cluster; it is a fundamental rethinking of how compute, memory, and cooling interact. At its core lies a new generation of domestic processors—likely a variant of the SW26010…

如果想继续追踪“Which Chinese AI companies will benefit most from this exascale compute capacity?”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。

中国重返超算巅峰：2 EFLOPS级系统重塑全球AI算力格局

技术深度解析

关键参与者与案例研究

时间归档

延伸阅读

常见问题