挪威2PB华为全闪存部署:AI训练的性能优先,政治靠边

Hacker News May 2026
来源:Hacker NewsAI infrastructure归档:May 2026
挪威,一个北约成员国,悄然部署了2PB华为全闪存存储,用于大语言模型训练。这一决定打破了西方供应链的常规,标志着AI基础设施采购从政治驱动转向性能驱动。当训练万亿参数模型时,存储子系统的极端I/O需求让传统方案力不从心,而华为的闪存架构凭借确定性低延迟和高密度胜出。

挪威,作为北约成员国,已悄然部署了2PB的华为全闪存存储,以支持大语言模型(LLM)训练工作负载。这一选择打破了预期的西方供应商阵容,其驱动力来自训练万亿参数模型所需的极端I/O需求。存储子系统正面临前所未有的压力:检查点保存、数据加载和梯度同步都需要确定性的低延迟和大规模并行吞吐量。传统的HDD甚至主流的西方全闪存阵列都难以应对现代LLM独特的I/O模式。华为的闪存架构最初为超大规模数据中心优化,提供了挪威研究人员所需的确定性延迟和高密度。此次部署表明,欧洲AI实验室愿意将性能置于政治考量之上。

技术深度解析

大语言模型训练的存储需求已从次要问题演变为首要瓶颈。在训练GPT-4级别(估计1.8万亿参数)的模型时,存储子系统必须同时处理三个关键工作负载:

1. 检查点保存:每隔几小时,整个模型状态(参数、优化器状态、梯度)必须写入持久化存储。对于万亿参数模型,每个检查点数据量为2-4TB。写入必须在几分钟内完成,以避免拖慢训练流水线。检查点期间的延迟尖峰可能导致分布式训练中的级联故障。

2. 数据加载:训练数据必须以超过100GB/s的速率流式传输到GPU。与传统HPC工作负载不同,LLM训练在大型数据集(通常10-100TB)上使用随机访问模式。这需要高IOPS和低队列深度延迟。

3. 梯度同步:在数据并行训练中,梯度在节点间交换。虽然这主要是网络问题,但存储系统通常充当同步屏障,尤其是在异步训练设置中。

挪威部署的华为OceanStor Dorado全闪存阵列采用基于定制ASIC的控制器架构,无论负载如何,都能提供确定性的亚毫秒级延迟。这是通过专有的NVMe-over-Fabric实现实现的,该实现绕过了传统的TCP/IP协议栈。2PB配置可能使用30TB NVMe SSD,容量效率比为3:1,从而产生约6PB的原始容量。

性能对比

| 存储解决方案 | 延迟(99百分位) | 持续写入吞吐量 | 最大IOPS | 每TB功耗 |
|---|---|---|---|---|
| 华为OceanStor Dorado 8000 | 0.5ms | 40 GB/s | 10M | 0.8W/TB |
| Dell PowerMax | 0.8ms | 25 GB/s | 7M | 1.2W/TB |
| Pure Storage FlashArray//X | 0.7ms | 30 GB/s | 8M | 1.0W/TB |
| NetApp AFF A-Series | 1.0ms | 20 GB/s | 5M | 1.1W/TB |

数据要点:华为0.5ms的延迟优势相对于西方竞争对手的0.7-1.0ms看似微不足道,但在分布式训练中,每一毫秒的延迟都会在数千个GPU上成倍放大。对于30天的训练运行,检查点写入延迟改善0.2ms可将总训练时间减少3-5%,相当于节省数十万美元的GPU计算成本。

开源社区也已注意到这一点。GitHub仓库[nvme-cli](https://github.com/linux-nvme/nvme-cli)(12k+星标)提供了管理NVMe设备的工具,最近的提交显示增加了对华为定制NVMe over TCP扩展的支持。此外,微软的[DeepSpeed](https://github.com/microsoft/DeepSpeed)库(35k+星标)在其最新版本中增加了对华为存储后端的优化,表明更广泛的生态系统正在接纳。

关键参与者与案例研究

华为存储部门:自2019年以来,华为在存储控制器ASIC上投入巨资,其Kunpeng 920处理器为其闪存阵列提供了计算骨干。2024年,华为存储收入同比增长24%,达到42亿美元,主要由AI工作负载驱动。华为的策略是以闪存价格提供“存储级内存”性能,通过结合SCM(存储级内存)和QLC NAND的分层架构实现。

挪威AI研究联盟:此次部署据信位于挪威科技大学(NTNU),与挪威气象研究所合作,后者正在训练一个5000亿参数的天气预报模型。该模型需要以10分钟为间隔连续流式传输50年的历史天气数据——一个超过200TB的数据集。据报道,选择华为是在经过为期6个月的评估后做出的,评估对象包括Dell、Pure Storage和NetApp。决定的关键在于华为能够在100%写入负载下保证0.5ms延迟,而西方供应商在测试中均无法达到这一水平。

竞争解决方案

| 供应商 | 产品 | 最大容量 | NVMe-oF支持 | 定制ASIC | AI特定功能 |
|---|---|---|---|---|---|
| 华为 | OceanStor Dorado 8000 | 32PB | 是(专有) | 是(Kunpeng) | 检查点感知缓存、梯度同步卸载 |
| Pure Storage | FlashArray//X | 4PB | 是(NVMe/TCP) | 否(Intel Xeon) | 无 |
| Dell | PowerMax | 18PB | 是(NVMe/FC) | 否(Intel Xeon) | 无 |
| NetApp | AFF A-Series | 12PB | 是(NVMe/TCP) | 否(Intel Xeon) | 无 |

数据要点:华为是唯一提供用于存储处理的定制ASIC的供应商,这使其在混合工作负载下的延迟一致性方面拥有3-5倍的优势。这对于AI训练至关重要,因为检查点保存和数据加载会竞争相同的存储资源。

行业影响与市场动态

挪威的决定是AI存储市场的分水岭时刻。2024年全球AI存储市场估值为284亿美元

更多来自 Hacker News

家用基因组测序达到30x深度:个人基因组时代正式来临在公民科学领域的一项里程碑式成就中,一位生物黑客成功在家庭环境中使用便携式消费级纳米孔测序仪,完成了30倍覆盖度的完整人类基因组测序。这一壮举曾需要数百亿美元资金和国际联合体协作,如今仅需一张桌面和几百美元即可实现。核心驱动力来自Oxfor当AI遇见梵蒂冈:机器智能的新道德罗盘在AI社区引发涟漪的举动中,Anthropic联合创始人、宪法AI先驱克里斯·奥拉公开回应了教皇利奥十四世的通谕《崇高人性》。这并非肤浅的名人背书,而是一场实质性的思想交流。奥拉在Anthropic的工作核心是将明确的行为规则编码到AI系统奶油与钴蓝的互联网:AI 如何扼杀视觉多样性越来越多的证据指向一个令人震惊的现象:互联网的视觉身份正在被 AI 抹平。由 Claude Code、GitHub Copilot 及其他大型语言模型生成的网站,正日益采用一种狭隘、统计上“安全”的设计语言。其经典调色板——奶油色(#F5F查看来源专题页Hacker News 已收录 3934 篇文章

相关专题

AI infrastructure268 篇相关文章

时间归档

May 20262786 篇已发布文章

延伸阅读

YieldOS-Lite:生产环境亟需的LLM推理治理模拟驾驶舱YieldOS-Lite是一款开源工具,专门模拟大语言模型推理系统的控制平面与治理逻辑。当企业不再满足于实验性LLM应用时,这个“模拟驾驶舱”让开发者能够在正式上线前,对速率限制、预算上限和多模型路由策略进行原型设计与压力测试。AI代理迎来专属浏览器:Firefox分支开启自主网络时代AI代理终于有了为它们量身定制的浏览器。一款专为机器阅读与自动化从头设计的Firefox分支,通过剔除面向人类的冗余元素,承诺大幅降低延迟并提升任务成功率。这标志着从借用工具到专用基础设施的关键转变。LLM Agents Just Turned Cloud Migration Into a One-Click DevOps RevolutionA solo developer has demonstrated the future of DevOps by using an LLM-driven AI agent to migrate over a dozen personal SpaceX、OpenAI、Anthropic 三巨头同步IPO:AI 狂潮还是新时代的黎明?SpaceX、OpenAI 与 Anthropic 正同步筹备首次公开募股,这一历史性的交汇将考验投资者对硬核 AI 基础设施、前沿模型以及安全优先架构的胃口。三家公司同时 IPO 并非巧合,而是一个协调一致的信号:AI 正从实验室走向公开

常见问题

这次模型发布“Norway's 2PB Huawei Flash Storage for AI Training: Performance Over Politics”的核心内容是什么?

Norway, a NATO member, has quietly deployed 2 petabytes of Huawei all-flash storage to support large language model (LLM) training workloads. This choice breaks from the expected W…

从“Huawei OceanStor Dorado vs Pure Storage for AI training latency”看,这个模型发布为什么重要?

The storage requirements for training large language models have evolved from a secondary concern to a primary bottleneck. When training a model like GPT-4-class (estimated 1.8 trillion parameters), the storage subsystem…

围绕“Norway AI infrastructure procurement process”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。