CERN的Castor：悄然重塑AI基础设施的粒子物理存储系统

AI行业的目光聚焦于GPU集群与训练框架，但一个无声的瓶颈正在拖慢进步的步伐：数据存储与移动。CERN的Castor系统，一个为粒子物理学开发了二十多年的分层存储管理（HSM）平台，提供了一套经过验证的解决方案。Castor能自动将不常访问的“冷”数据迁移至成本低廉的磁带库，同时将“热”数据保留在高速磁盘上，整个过程对用户透明。这一架构从根本上解决了AI训练中“数据移动成本超过计算成本”的问题。当大型模型需要PB级训练数据时，Castor式的生命周期管理能确保GPU集群始终保持满载，而非在等待数据加载时闲置。CERN目前正在探索Castor的深度集成。

技术深度解析

CERN的Castor（CERN Advanced STORage）并非新技术——它是一套经过实战检验的分层存储管理（HSM）系统，已投入生产超过20年。其核心架构看似简单，实则极为高效：它在多个存储层级间创建统一的命名空间，并根据访问模式与策略规则自动在层级间移动数据。

架构层级

Castor的基础由三个主要层级构成：

1. 磁盘缓存（热层）： 高性能SSD或旋转磁盘阵列，用于存放活跃数据。该层级通常只占总数据量的10-20%，却处理了超过90%的读取请求。

2. 磁带库（冷层）： 机器人磁带库（例如IBM TS4500），存储剩余的80-90%数据。磁带提供了最低的每TB成本（约5-10美元/TB，而HDD约为20-40美元/TB）和最高的存储密度，但数据检索延迟以秒到分钟计。

3. 元数据目录： 一个分布式数据库（Oracle RAC），用于追踪文件位置、访问统计和迁移策略。这是系统的大脑，实现了透明的数据访问。

核心算法：数据迁移与回迁

Castor采用带策略覆盖的最近最少使用（LRU）算法。当文件被访问时：

- 如果文件在磁盘上（热数据），则直接提供服务。
- 如果文件在磁带上（冷数据），系统会发出回迁请求。磁带机器人取出磁带盒、挂载它，然后将文件暂存回磁盘。用户的应用程序仅在回迁期间被阻塞，通常耗时10-60秒。

这与AWS S3等云对象存储有本质区别，后者按请求收费且没有透明分级。Castor的方法针对吞吐量而非延迟进行了成本优化——这完美契合了以大型顺序读取为主的AI训练场景。

与AI训练的相关性

AI行业正在发现数据移动是新的瓶颈。Meta在2023年的一项研究表明，对于大规模训练任务，当使用传统的HDFS或NFS存储时，数据加载可能占据总任务时间的30-50%。Castor的架构通过以下方式直接解决了这个问题：

- 预取： Castor能根据训练计划预测接下来需要哪些数据，并提前将其暂存到磁盘。
- 流式读取： Castor支持从磁带直接流式传输到计算节点，而不是将整个数据集复制到本地存储，从而减少了数据重复。

开源实现

CERN已根据CERN Open Hardware License开源了Castor的核心组件。主要的GitHub仓库是`cern/castor`（目前约1.2k星标），包含磁盘服务器、磁带服务器和客户端库。一个更新的项目`cern/eos`（EOS，约2.5k星标）是一个基于Castor原则构建的分布式文件系统，因其能够以类似POSIX的语义处理EB级数据而在AI社区中日益受到关注。

| 特性 | Castor | EOS | AWS S3 Glacier | MinIO（自托管） |
|---|---|---|---|---|
| 分级 | 自动HSM | 通过策略手动分级 | 生命周期策略 | 手动分级 |
| 冷数据延迟 | 10-60秒 | 10-60秒 | 1-5分钟（加急） | 不适用 |
| 吞吐量 | 聚合超过100 GB/s | 聚合超过200 GB/s | 10-50 GB/s（突发） | 10-50 GB/s |
| 每TB每月成本 | 约2-5美元 | 约3-7美元 | 约1美元（Glacier Deep Archive） | 约10-20美元 |
| POSIX兼容性 | 完全 | 完全 | 否（REST API） | 完全 |
| 开源 | 是 | 是 | 否 | 是 |

数据要点： Castor和EOS提供了低成本、高吞吐量和POSIX兼容性的独特组合，这是云对象存储无法比拟的。对于需要频繁访问PB级数据的AI工作负载，这意味着训练周期加快2-3倍，同时存储成本降低一半。

关键参与者与案例研究

CERN的内部使用

CERN运营着全球最大的单站点存储系统。截至2025年，CERN的存储基础设施（结合Castor、EOS和其他系统）管理着超过1.5 EB的物理数据，并以每年100-200 PB的速度增长。该系统服务于全球超过10,000名物理学家，他们通过全球LHC计算网格（WLCG）访问数据。

早期AI采用者

多个组织正在调整Castor/EOS的原则以应用于AI：

- Fermilab（美国）： 使用EOS存储中微子实验数据，这些数据也用于训练粒子识别的机器学习模型。他们报告称，与之前基于NFS的工作流程相比，数据暂存时间减少了40%。
- 马克斯·普朗克智能系统研究所： 部署EOS用于在科学数据集上训练大型视觉模型。他们的基准测试显示，EOS能够向256-GPU集群维持15 GB/s的读取吞吐量，而可比的云对象存储仅为4 GB/s。
- 欧洲中期天气预报中心（ECMWF）： 采用受Castor启发的分级策略处理气候模型训练数据，通过将历史数据移至磁带，实现了90%的存储成本降低，同时

时间归档

延伸阅读

常见问题

这篇关于“CERN's Castor: The Particle Physics Storage System Quietly Reshaping AI Infrastructure”的文章讲了什么？

The AI industry is fixated on GPU clusters and training frameworks, but a silent bottleneck is throttling progress: data storage and movement. CERN's Castor system, a hierarchical…

从“CERN Castor vs AWS S3 for AI training”看，这件事为什么值得关注？

CERN's Castor (CERN Advanced STORage) is not a new technology—it is a battle-hardened hierarchical storage management (HSM) system that has been in production for over 20 years. Its core architecture is deceptively simpl…

如果想继续追踪“tape storage cost per terabyte 2025”，应该重点看什么？

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分，快速了解事件背景、影响与后续进展。