挪威2PB华为全闪存部署：AI训练的性能优先，政治靠边

2026年5月26日 04:02 AINews Hacker News May 2026

来源：Hacker News AI infrastructure 归档：May 2026

挪威，一个北约成员国，悄然部署了2PB华为全闪存存储，用于大语言模型训练。这一决定打破了西方供应链的常规，标志着AI基础设施采购从政治驱动转向性能驱动。当训练万亿参数模型时，存储子系统的极端I/O需求让传统方案力不从心，而华为的闪存架构凭借确定性低延迟和高密度胜出。

挪威，作为北约成员国，已悄然部署了2PB的华为全闪存存储，以支持大语言模型（LLM）训练工作负载。这一选择打破了预期的西方供应商阵容，其驱动力来自训练万亿参数模型所需的极端I/O需求。存储子系统正面临前所未有的压力：检查点保存、数据加载和梯度同步都需要确定性的低延迟和大规模并行吞吐量。传统的HDD甚至主流的西方全闪存阵列都难以应对现代LLM独特的I/O模式。华为的闪存架构最初为超大规模数据中心优化，提供了挪威研究人员所需的确定性延迟和高密度。此次部署表明，欧洲AI实验室愿意将性能置于政治考量之上。

技术深度解析

大语言模型训练的存储需求已从次要问题演变为首要瓶颈。在训练GPT-4级别（估计1.8万亿参数）的模型时，存储子系统必须同时处理三个关键工作负载：

1. 检查点保存：每隔几小时，整个模型状态（参数、优化器状态、梯度）必须写入持久化存储。对于万亿参数模型，每个检查点数据量为2-4TB。写入必须在几分钟内完成，以避免拖慢训练流水线。检查点期间的延迟尖峰可能导致分布式训练中的级联故障。

2. 数据加载：训练数据必须以超过100GB/s的速率流式传输到GPU。与传统HPC工作负载不同，LLM训练在大型数据集（通常10-100TB）上使用随机访问模式。这需要高IOPS和低队列深度延迟。

3. 梯度同步：在数据并行训练中，梯度在节点间交换。虽然这主要是网络问题，但存储系统通常充当同步屏障，尤其是在异步训练设置中。

挪威部署的华为OceanStor Dorado全闪存阵列采用基于定制ASIC的控制器架构，无论负载如何，都能提供确定性的亚毫秒级延迟。这是通过专有的NVMe-over-Fabric实现实现的，该实现绕过了传统的TCP/IP协议栈。2PB配置可能使用30TB NVMe SSD，容量效率比为3:1，从而产生约6PB的原始容量。

性能对比：

| 存储解决方案 | 延迟（99百分位） | 持续写入吞吐量 | 最大IOPS | 每TB功耗 |
|---|---|---|---|---|
| 华为OceanStor Dorado 8000 | 0.5ms | 40 GB/s | 10M | 0.8W/TB |
| Dell PowerMax | 0.8ms | 25 GB/s | 7M | 1.2W/TB |
| Pure Storage FlashArray//X | 0.7ms | 30 GB/s | 8M | 1.0W/TB |
| NetApp AFF A-Series | 1.0ms | 20 GB/s | 5M | 1.1W/TB |

数据要点：华为0.5ms的延迟优势相对于西方竞争对手的0.7-1.0ms看似微不足道，但在分布式训练中，每一毫秒的延迟都会在数千个GPU上成倍放大。对于30天的训练运行，检查点写入延迟改善0.2ms可将总训练时间减少3-5%，相当于节省数十万美元的GPU计算成本。

开源社区也已注意到这一点。GitHub仓库[nvme-cli](https://github.com/linux-nvme/nvme-cli)（12k+星标）提供了管理NVMe设备的工具，最近的提交显示增加了对华为定制NVMe over TCP扩展的支持。此外，微软的[DeepSpeed](https://github.com/microsoft/DeepSpeed)库（35k+星标）在其最新版本中增加了对华为存储后端的优化，表明更广泛的生态系统正在接纳。

关键参与者与案例研究

华为存储部门：自2019年以来，华为在存储控制器ASIC上投入巨资，其Kunpeng 920处理器为其闪存阵列提供了计算骨干。2024年，华为存储收入同比增长24%，达到42亿美元，主要由AI工作负载驱动。华为的策略是以闪存价格提供“存储级内存”性能，通过结合SCM（存储级内存）和QLC NAND的分层架构实现。

挪威AI研究联盟：此次部署据信位于挪威科技大学（NTNU），与挪威气象研究所合作，后者正在训练一个5000亿参数的天气预报模型。该模型需要以10分钟为间隔连续流式传输50年的历史天气数据——一个超过200TB的数据集。据报道，选择华为是在经过为期6个月的评估后做出的，评估对象包括Dell、Pure Storage和NetApp。决定的关键在于华为能够在100%写入负载下保证0.5ms延迟，而西方供应商在测试中均无法达到这一水平。

竞争解决方案：

| 供应商 | 产品 | 最大容量 | NVMe-oF支持 | 定制ASIC | AI特定功能 |
|---|---|---|---|---|---|
| 华为 | OceanStor Dorado 8000 | 32PB | 是（专有） | 是（Kunpeng） | 检查点感知缓存、梯度同步卸载 |
| Pure Storage | FlashArray//X | 4PB | 是（NVMe/TCP） | 否（Intel Xeon） | 无 |
| Dell | PowerMax | 18PB | 是（NVMe/FC） | 否（Intel Xeon） | 无 |
| NetApp | AFF A-Series | 12PB | 是（NVMe/TCP） | 否（Intel Xeon） | 无 |

数据要点：华为是唯一提供用于存储处理的定制ASIC的供应商，这使其在混合工作负载下的延迟一致性方面拥有3-5倍的优势。这对于AI训练至关重要，因为检查点保存和数据加载会竞争相同的存储资源。

行业影响与市场动态

挪威的决定是AI存储市场的分水岭时刻。2024年全球AI存储市场估值为284亿美元

时间归档

常见问题

这次模型发布“Norway's 2PB Huawei Flash Storage for AI Training: Performance Over Politics”的核心内容是什么？

Norway, a NATO member, has quietly deployed 2 petabytes of Huawei all-flash storage to support large language model (LLM) training workloads. This choice breaks from the expected W…

从“Huawei OceanStor Dorado vs Pure Storage for AI training latency”看，这个模型发布为什么重要？

The storage requirements for training large language models have evolved from a secondary concern to a primary bottleneck. When training a model like GPT-4-class (estimated 1.8 trillion parameters), the storage subsystem…

围绕“Norway AI infrastructure procurement process”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

挪威2PB华为全闪存部署：AI训练的性能优先，政治靠边

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题