技术深度解析
大语言模型训练的存储需求已从次要问题演变为首要瓶颈。在训练GPT-4级别(估计1.8万亿参数)的模型时,存储子系统必须同时处理三个关键工作负载:
1. 检查点保存:每隔几小时,整个模型状态(参数、优化器状态、梯度)必须写入持久化存储。对于万亿参数模型,每个检查点数据量为2-4TB。写入必须在几分钟内完成,以避免拖慢训练流水线。检查点期间的延迟尖峰可能导致分布式训练中的级联故障。
2. 数据加载:训练数据必须以超过100GB/s的速率流式传输到GPU。与传统HPC工作负载不同,LLM训练在大型数据集(通常10-100TB)上使用随机访问模式。这需要高IOPS和低队列深度延迟。
3. 梯度同步:在数据并行训练中,梯度在节点间交换。虽然这主要是网络问题,但存储系统通常充当同步屏障,尤其是在异步训练设置中。
挪威部署的华为OceanStor Dorado全闪存阵列采用基于定制ASIC的控制器架构,无论负载如何,都能提供确定性的亚毫秒级延迟。这是通过专有的NVMe-over-Fabric实现实现的,该实现绕过了传统的TCP/IP协议栈。2PB配置可能使用30TB NVMe SSD,容量效率比为3:1,从而产生约6PB的原始容量。
性能对比:
| 存储解决方案 | 延迟(99百分位) | 持续写入吞吐量 | 最大IOPS | 每TB功耗 |
|---|---|---|---|---|
| 华为OceanStor Dorado 8000 | 0.5ms | 40 GB/s | 10M | 0.8W/TB |
| Dell PowerMax | 0.8ms | 25 GB/s | 7M | 1.2W/TB |
| Pure Storage FlashArray//X | 0.7ms | 30 GB/s | 8M | 1.0W/TB |
| NetApp AFF A-Series | 1.0ms | 20 GB/s | 5M | 1.1W/TB |
数据要点:华为0.5ms的延迟优势相对于西方竞争对手的0.7-1.0ms看似微不足道,但在分布式训练中,每一毫秒的延迟都会在数千个GPU上成倍放大。对于30天的训练运行,检查点写入延迟改善0.2ms可将总训练时间减少3-5%,相当于节省数十万美元的GPU计算成本。
开源社区也已注意到这一点。GitHub仓库[nvme-cli](https://github.com/linux-nvme/nvme-cli)(12k+星标)提供了管理NVMe设备的工具,最近的提交显示增加了对华为定制NVMe over TCP扩展的支持。此外,微软的[DeepSpeed](https://github.com/microsoft/DeepSpeed)库(35k+星标)在其最新版本中增加了对华为存储后端的优化,表明更广泛的生态系统正在接纳。
关键参与者与案例研究
华为存储部门:自2019年以来,华为在存储控制器ASIC上投入巨资,其Kunpeng 920处理器为其闪存阵列提供了计算骨干。2024年,华为存储收入同比增长24%,达到42亿美元,主要由AI工作负载驱动。华为的策略是以闪存价格提供“存储级内存”性能,通过结合SCM(存储级内存)和QLC NAND的分层架构实现。
挪威AI研究联盟:此次部署据信位于挪威科技大学(NTNU),与挪威气象研究所合作,后者正在训练一个5000亿参数的天气预报模型。该模型需要以10分钟为间隔连续流式传输50年的历史天气数据——一个超过200TB的数据集。据报道,选择华为是在经过为期6个月的评估后做出的,评估对象包括Dell、Pure Storage和NetApp。决定的关键在于华为能够在100%写入负载下保证0.5ms延迟,而西方供应商在测试中均无法达到这一水平。
竞争解决方案:
| 供应商 | 产品 | 最大容量 | NVMe-oF支持 | 定制ASIC | AI特定功能 |
|---|---|---|---|---|---|
| 华为 | OceanStor Dorado 8000 | 32PB | 是(专有) | 是(Kunpeng) | 检查点感知缓存、梯度同步卸载 |
| Pure Storage | FlashArray//X | 4PB | 是(NVMe/TCP) | 否(Intel Xeon) | 无 |
| Dell | PowerMax | 18PB | 是(NVMe/FC) | 否(Intel Xeon) | 无 |
| NetApp | AFF A-Series | 12PB | 是(NVMe/TCP) | 否(Intel Xeon) | 无 |
数据要点:华为是唯一提供用于存储处理的定制ASIC的供应商,这使其在混合工作负载下的延迟一致性方面拥有3-5倍的优势。这对于AI训练至关重要,因为检查点保存和数据加载会竞争相同的存储资源。
行业影响与市场动态
挪威的决定是AI存储市场的分水岭时刻。2024年全球AI存储市场估值为284亿美元