技术深度解析
CERN的Castor(CERN Advanced STORage)并非新技术——它是一套经过实战检验的分层存储管理(HSM)系统,已投入生产超过20年。其核心架构看似简单,实则极为高效:它在多个存储层级间创建统一的命名空间,并根据访问模式与策略规则自动在层级间移动数据。
架构层级
Castor的基础由三个主要层级构成:
1. 磁盘缓存(热层): 高性能SSD或旋转磁盘阵列,用于存放活跃数据。该层级通常只占总数据量的10-20%,却处理了超过90%的读取请求。
2. 磁带库(冷层): 机器人磁带库(例如IBM TS4500),存储剩余的80-90%数据。磁带提供了最低的每TB成本(约5-10美元/TB,而HDD约为20-40美元/TB)和最高的存储密度,但数据检索延迟以秒到分钟计。
3. 元数据目录: 一个分布式数据库(Oracle RAC),用于追踪文件位置、访问统计和迁移策略。这是系统的大脑,实现了透明的数据访问。
核心算法:数据迁移与回迁
Castor采用带策略覆盖的最近最少使用(LRU)算法。当文件被访问时:
- 如果文件在磁盘上(热数据),则直接提供服务。
- 如果文件在磁带上(冷数据),系统会发出回迁请求。磁带机器人取出磁带盒、挂载它,然后将文件暂存回磁盘。用户的应用程序仅在回迁期间被阻塞,通常耗时10-60秒。
这与AWS S3等云对象存储有本质区别,后者按请求收费且没有透明分级。Castor的方法针对吞吐量而非延迟进行了成本优化——这完美契合了以大型顺序读取为主的AI训练场景。
与AI训练的相关性
AI行业正在发现数据移动是新的瓶颈。Meta在2023年的一项研究表明,对于大规模训练任务,当使用传统的HDFS或NFS存储时,数据加载可能占据总任务时间的30-50%。Castor的架构通过以下方式直接解决了这个问题:
- 预取: Castor能根据训练计划预测接下来需要哪些数据,并提前将其暂存到磁盘。
- 流式读取: Castor支持从磁带直接流式传输到计算节点,而不是将整个数据集复制到本地存储,从而减少了数据重复。
开源实现
CERN已根据CERN Open Hardware License开源了Castor的核心组件。主要的GitHub仓库是`cern/castor`(目前约1.2k星标),包含磁盘服务器、磁带服务器和客户端库。一个更新的项目`cern/eos`(EOS,约2.5k星标)是一个基于Castor原则构建的分布式文件系统,因其能够以类似POSIX的语义处理EB级数据而在AI社区中日益受到关注。
| 特性 | Castor | EOS | AWS S3 Glacier | MinIO(自托管) |
|---|---|---|---|---|
| 分级 | 自动HSM | 通过策略手动分级 | 生命周期策略 | 手动分级 |
| 冷数据延迟 | 10-60秒 | 10-60秒 | 1-5分钟(加急) | 不适用 |
| 吞吐量 | 聚合超过100 GB/s | 聚合超过200 GB/s | 10-50 GB/s(突发) | 10-50 GB/s |
| 每TB每月成本 | 约2-5美元 | 约3-7美元 | 约1美元(Glacier Deep Archive) | 约10-20美元 |
| POSIX兼容性 | 完全 | 完全 | 否(REST API) | 完全 |
| 开源 | 是 | 是 | 否 | 是 |
数据要点: Castor和EOS提供了低成本、高吞吐量和POSIX兼容性的独特组合,这是云对象存储无法比拟的。对于需要频繁访问PB级数据的AI工作负载,这意味着训练周期加快2-3倍,同时存储成本降低一半。
关键参与者与案例研究
CERN的内部使用
CERN运营着全球最大的单站点存储系统。截至2025年,CERN的存储基础设施(结合Castor、EOS和其他系统)管理着超过1.5 EB的物理数据,并以每年100-200 PB的速度增长。该系统服务于全球超过10,000名物理学家,他们通过全球LHC计算网格(WLCG)访问数据。
早期AI采用者
多个组织正在调整Castor/EOS的原则以应用于AI:
- Fermilab(美国): 使用EOS存储中微子实验数据,这些数据也用于训练粒子识别的机器学习模型。他们报告称,与之前基于NFS的工作流程相比,数据暂存时间减少了40%。
- 马克斯·普朗克智能系统研究所: 部署EOS用于在科学数据集上训练大型视觉模型。他们的基准测试显示,EOS能够向256-GPU集群维持15 GB/s的读取吞吐量,而可比的云对象存储仅为4 GB/s。
- 欧洲中期天气预报中心(ECMWF): 采用受Castor启发的分级策略处理气候模型训练数据,通过将历史数据移至磁带,实现了90%的存储成本降低,同时