技术深度解析
这套2 EFLOPS系统并非简单的集群规模扩展,而是对计算、内存与散热三者交互方式的根本性重构。其核心是一代新型国产处理器——很可能是SW26010众核架构的变体,但经过了重大增强。此前用于神威·太湖之光的原始SW26010芯片每颗集成260个核心,而新设计据称整合了更均衡的通用处理单元(PE)与专用矩阵加速单元。关键的架构创新在于三级内存层次:每个计算节点配备本地便笺式存储器(8-16 GB)、共享高带宽内存池(HBM2e或HBM3,每节点带宽2-3 TB/s),以及基于专有光互连的全局分布式共享内存层。这消除了传统CPU与GPU之间数据传输的瓶颈——这一瓶颈困扰着大多数基于独立加速器的超算设计。
| 指标 | 前代系统(神威·太湖之光) | 新2 EFLOPS系统 | 行业参考(Frontier) |
|---|---|---|---|
| 峰值性能 | 93 PFLOPS | 2,000+ PFLOPS | 1,680 PFLOPS |
| 功耗 | 15.3 MW | ~38 MW(估算) | 21 MW |
| 能效 | 6.1 GFLOPS/W | ~52 GFLOPS/W | 80 GFLOPS/W |
| 节点架构 | 260核CPU | 混合CPU+矩阵加速器 | AMD EPYC + MI250X GPU |
| 互连 | 定制(Sunway) | 定制光互连+类NVLink | Slingshot-11 |
| 每节点HBM容量 | 32 GB | 128 GB(估算) | 128 GB |
数据要点: 新系统峰值性能约为前代的12倍,但能效落后Frontier约35%。这表明虽然计算密度大幅提升,但热管理与供电系统仍有优化空间。不过,定制光互连的使用赋予中国独特优势——可在超过10,000个节点的规模下避免电信号传输的延迟惩罚。
在散热方面,该系统采用混合浸没式+直接液体冷却方案。关键计算节点浸没在介电液体中,直接吸收芯片热量;光收发器和电源则使用冷板液冷。这种双管齐下的方式使系统能够在每个插槽600W的热设计功耗(TDP)下运行,而无需使用特殊材料。散热基础设施本身堪称工程奇迹:闭环系统回收废热用于所在城市的区域供暖,整体电能使用效率(PUE)达到1.04——与顶级超大规模数据中心相当。
一个值得关注的软件贡献是开源仓库 Sunway Parallel Studio(GitHub: sunway-parallel-studio,约4,200星),它为新型架构提供了编译器框架、性能分析器和运行时库。该工具链支持Fortran、C和Python代码的自动并行化,并对科学模拟中常见的模板计算和稀疏矩阵运算进行了特定优化。社区已将关键HPC基准测试(HPL、HPCG、MiniMD)以及多个AI框架(PyTorch、TensorFlow、JAX)移植到该平台,不过与CUDA系统的性能对标仍在进行中。
关键参与者与案例研究
这台超算的研发是多家中字头企业与研究机构协同作战的成果。国家并行计算机工程技术研究中心(NRCPC)主导架构设计,上海高性能集成电路设计中心则采用7nm级工艺(很可能来自中芯国际,但具体节点保密)制造处理器。该系统部署于国家超级计算无锡中心,与神威·太湖之光原址相同。
| 机构 | 角色 | 过往记录 |
|---|---|---|
| NRCPC | 架构设计与系统集成 | 设计神威·太湖之光(2016)、天河二号(2013) |
| 中芯国际 | 处理器制造 | 7nm级N+2工艺;良率提升至约75% |
| 华为 | 互连与光学组件 | 海思光收发器;每通道800Gbps |
| 阿里云 | AI工作负载优化 | 移植PAI平台;声称LLM训练性能达到CUDA的90% |
| 清华大学 | 散热与电源系统 | 开发浸没式冷却,TCO比风冷降低40% |
数据要点: 阿里云的参与尤其耐人寻味。这表明该系统不仅用于科学研究,更旨在支撑商业AI工作负载。阿里云为其通义千问LLM提供动力的PAI平台,已针对新架构进行优化。早期基准测试显示,在4,096个节点上训练70B参数模型,模型FLOPs利用率(MFU)达到58%,而同等NVIDIA H100集群为62%。差距正在缩小,但软件优化仍是关键战场。