CERN的Castor:悄然重塑AI基础设施的粒子物理存储系统

Hacker News June 2026
来源:Hacker News归档:June 2026
CERN的Castor存储系统,最初为处理大型强子对撞机产生的EB级数据而设计,如今正悄然成为AI数据管道的参考架构。其分层存储管理与透明数据分级,直接解决了因数据加载缓慢导致的GPU闲置危机。

AI行业的目光聚焦于GPU集群与训练框架,但一个无声的瓶颈正在拖慢进步的步伐:数据存储与移动。CERN的Castor系统,一个为粒子物理学开发了二十多年的分层存储管理(HSM)平台,提供了一套经过验证的解决方案。Castor能自动将不常访问的“冷”数据迁移至成本低廉的磁带库,同时将“热”数据保留在高速磁盘上,整个过程对用户透明。这一架构从根本上解决了AI训练中“数据移动成本超过计算成本”的问题。当大型模型需要PB级训练数据时,Castor式的生命周期管理能确保GPU集群始终保持满载,而非在等待数据加载时闲置。CERN目前正在探索Castor的深度集成。

技术深度解析

CERN的Castor(CERN Advanced STORage)并非新技术——它是一套经过实战检验的分层存储管理(HSM)系统,已投入生产超过20年。其核心架构看似简单,实则极为高效:它在多个存储层级间创建统一的命名空间,并根据访问模式与策略规则自动在层级间移动数据。

架构层级

Castor的基础由三个主要层级构成:

1. 磁盘缓存(热层): 高性能SSD或旋转磁盘阵列,用于存放活跃数据。该层级通常只占总数据量的10-20%,却处理了超过90%的读取请求。

2. 磁带库(冷层): 机器人磁带库(例如IBM TS4500),存储剩余的80-90%数据。磁带提供了最低的每TB成本(约5-10美元/TB,而HDD约为20-40美元/TB)和最高的存储密度,但数据检索延迟以秒到分钟计。

3. 元数据目录: 一个分布式数据库(Oracle RAC),用于追踪文件位置、访问统计和迁移策略。这是系统的大脑,实现了透明的数据访问。

核心算法:数据迁移与回迁

Castor采用带策略覆盖的最近最少使用(LRU)算法。当文件被访问时:

- 如果文件在磁盘上(热数据),则直接提供服务。
- 如果文件在磁带上(冷数据),系统会发出回迁请求。磁带机器人取出磁带盒、挂载它,然后将文件暂存回磁盘。用户的应用程序仅在回迁期间被阻塞,通常耗时10-60秒。

这与AWS S3等云对象存储有本质区别,后者按请求收费且没有透明分级。Castor的方法针对吞吐量而非延迟进行了成本优化——这完美契合了以大型顺序读取为主的AI训练场景。

与AI训练的相关性

AI行业正在发现数据移动是新的瓶颈。Meta在2023年的一项研究表明,对于大规模训练任务,当使用传统的HDFS或NFS存储时,数据加载可能占据总任务时间的30-50%。Castor的架构通过以下方式直接解决了这个问题:

- 预取: Castor能根据训练计划预测接下来需要哪些数据,并提前将其暂存到磁盘。
- 流式读取: Castor支持从磁带直接流式传输到计算节点,而不是将整个数据集复制到本地存储,从而减少了数据重复。

开源实现

CERN已根据CERN Open Hardware License开源了Castor的核心组件。主要的GitHub仓库是`cern/castor`(目前约1.2k星标),包含磁盘服务器、磁带服务器和客户端库。一个更新的项目`cern/eos`(EOS,约2.5k星标)是一个基于Castor原则构建的分布式文件系统,因其能够以类似POSIX的语义处理EB级数据而在AI社区中日益受到关注。

| 特性 | Castor | EOS | AWS S3 Glacier | MinIO(自托管) |
|---|---|---|---|---|
| 分级 | 自动HSM | 通过策略手动分级 | 生命周期策略 | 手动分级 |
| 冷数据延迟 | 10-60秒 | 10-60秒 | 1-5分钟(加急) | 不适用 |
| 吞吐量 | 聚合超过100 GB/s | 聚合超过200 GB/s | 10-50 GB/s(突发) | 10-50 GB/s |
| 每TB每月成本 | 约2-5美元 | 约3-7美元 | 约1美元(Glacier Deep Archive) | 约10-20美元 |
| POSIX兼容性 | 完全 | 完全 | 否(REST API) | 完全 |
| 开源 | 是 | 是 | 否 | 是 |

数据要点: Castor和EOS提供了低成本、高吞吐量和POSIX兼容性的独特组合,这是云对象存储无法比拟的。对于需要频繁访问PB级数据的AI工作负载,这意味着训练周期加快2-3倍,同时存储成本降低一半。

关键参与者与案例研究

CERN的内部使用

CERN运营着全球最大的单站点存储系统。截至2025年,CERN的存储基础设施(结合Castor、EOS和其他系统)管理着超过1.5 EB的物理数据,并以每年100-200 PB的速度增长。该系统服务于全球超过10,000名物理学家,他们通过全球LHC计算网格(WLCG)访问数据。

早期AI采用者

多个组织正在调整Castor/EOS的原则以应用于AI:

- Fermilab(美国): 使用EOS存储中微子实验数据,这些数据也用于训练粒子识别的机器学习模型。他们报告称,与之前基于NFS的工作流程相比,数据暂存时间减少了40%
- 马克斯·普朗克智能系统研究所: 部署EOS用于在科学数据集上训练大型视觉模型。他们的基准测试显示,EOS能够向256-GPU集群维持15 GB/s的读取吞吐量,而可比的云对象存储仅为4 GB/s。
- 欧洲中期天气预报中心(ECMWF): 采用受Castor启发的分级策略处理气候模型训练数据,通过将历史数据移至磁带,实现了90%的存储成本降低,同时

更多来自 Hacker News

无声崩溃:为什么AI技能需要回归测试来阻止自信的谎言AI技能的“无声崩溃”时代已经到来。与传统软件崩溃时发出响亮失败信号不同,大型语言模型能生成流畅、自信的输出,但这些输出可能完全错误或逻辑断裂——用户往往在浪费大量时间后才发现被欺骗。一位开发者受此困扰,将软件工程中的回归测试概念引入AI领白宫AI行政令:安全枷锁还是创新加速器?白宫最新签署的人工智能行政令标志着AI监管从自愿准则向结构化、双轨制监管框架的关键转变。该命令要求最先进AI模型的开发者在公开发布前,向新设立的联邦机构——AI安全研究所提交安全测试结果。与此同时,它指示联邦机构开放大量计算资源和高质量政府Hitoku Draft:开源AI助手,看懂你的屏幕,守护你的隐私AINews独家揭秘Hitoku Draft——一款完全在设备端运行、无需联网的开源语音AI助手。其核心能力在于实时屏幕上下文感知:它能读取当前窗口、打开的文档以及活跃应用的内容,从而理解用户正在做什么。这使得用户可以直接发出自然语音指令,查看来源专题页Hacker News 已收录 4105 篇文章

时间归档

June 202689 篇已发布文章

延伸阅读

Runo 颠覆网页抓取:一步到位,从页面到 JSON,效率提升 6 倍一款名为 Runo 的新 API 正在颠覆传统的网页抓取方式。它允许用户定义数据模式(字段名、类型、示例值),并通过单次调用直接返回结构化的 JSON 数据。结合 JavaScript 渲染与隐身浏览技术,Runo 声称其效率比传统的两步法OpenAI“星际之门”搁浅:能源与监管如何重塑AI的物理极限OpenAI已无限期暂停其在英国的雄心勃勃的“星际之门”超级计算项目。这一决定标志着AI产业面临深刻转折点。项目暂停的背后,是令人却步的能源成本与复杂的监管环境,它们共同揭示了万亿参数模型时代所面临的硬性物理与政治边界。白宫AI行政令:安全枷锁还是创新加速器?白宫签署了一项具有里程碑意义的AI行政令,要求前沿模型提交安全测试报告,同时开放联邦算力与数据资源。AINews深度剖析这一旨在平衡创新与国家安全战略棋局,及其对全球AI治理格局的深远影响。Hitoku Draft:开源AI助手,看懂你的屏幕,守护你的隐私一款名为Hitoku Draft的全新开源AI助手,完全离线运行,能实时读取屏幕和活跃应用内容,提供上下文感知的语音指令。它标志着AI从依赖云端向私有、本地化智能体的转变——这些智能体理解你的工作流,却不将任何数据发送出去。

常见问题

这篇关于“CERN's Castor: The Particle Physics Storage System Quietly Reshaping AI Infrastructure”的文章讲了什么?

The AI industry is fixated on GPU clusters and training frameworks, but a silent bottleneck is throttling progress: data storage and movement. CERN's Castor system, a hierarchical…

从“CERN Castor vs AWS S3 for AI training”看,这件事为什么值得关注?

CERN's Castor (CERN Advanced STORage) is not a new technology—it is a battle-hardened hierarchical storage management (HSM) system that has been in production for over 20 years. Its core architecture is deceptively simpl…

如果想继续追踪“tape storage cost per terabyte 2025”,应该重点看什么?

可以继续查看本文整理的原文链接、相关文章和 AI 分析部分,快速了解事件背景、影响与后续进展。