技术深度解析
挖掘历史天文底片的技术挑战极为艰巨。这些玻璃负片通常为8x10英寸,表面涂有卤化银乳剂,经过一个世纪的存放,会出现不均匀的降解。常见缺陷包括宇宙射线照射导致的“灰雾”、微生物生长、乳剂开裂以及灰尘阴影。一个微弱瞬变天体的信噪比可能低于0.5,人眼几乎无法将其与背景噪声区分。
研究团队开发了一套多阶段流水线来应对这一挑战。首先,使用配备定制背光的平板扫描仪以1200 DPI分辨率对底片进行数字化,以最大程度减少乳剂不规则性产生的眩光。每张底片生成约200 MB的灰度TIFF图像。预处理阶段包括利用空白天空区域的中间值堆叠进行平场校正,随后进行基于小波的去噪处理,在抑制划痕的同时保留点源轮廓。
核心检测模型是一种改进的U-Net架构,采用ResNet-50编码器作为骨干网络,选择该架构是因为它在噪声医学图像中分割精细结构方面表现出色。U-Net为每个像素输出一个概率图,指示该像素是否属于瞬变候选体。一个关键创新是在训练过程中使用“合成伪影增强”:模型会接收人为添加了不同强度划痕、灰尘颗粒和乳剂气泡的图像,迫使其学习真实恒星与缺陷之间的不变特征。
在时间序列分析方面,模型会对比相隔数年拍摄的同一天空区域的底片。它利用一种对底片翘曲引起的非线性畸变具有鲁棒性的特征匹配算法(SIFT)进行图像配准。当不同历元之间的流量差异超过局部背景噪声的5倍标准差时,系统会标记为瞬变事件,同时利用视场中非变星参考星的光度校准来校正底片间的灵敏度差异。
| 性能指标 | 人类专家(人工) | 机器学习模型(U-Net) | 提升倍数 |
|---|---|---|---|
| 检测精确率 | 85% | 93% | 1.09倍 |
| 召回率(已知瞬变体) | 72% | 88% | 1.22倍 |
| 每张底片处理时间(分钟) | 45 | 0.5 | 90倍 |
| 每张底片误报数 | 3.2 | 1.1 | 减少2.9倍 |
数据要点: 机器学习模型不仅在精确率和召回率上超越人类专家,而且处理速度提升了90倍。这使得大规模档案挖掘首次成为可能。召回率提升22%尤为显著,因为它直接意味着从相同数据中发现更多新天体。
一个相关的开源项目AstroPlate(GitHub: astroplate/astroplate,约1200颗星)提供了数字化和校准历史底片的流水线,但缺少瞬变检测CNN。研究团队表示将发布他们训练好的模型和训练数据集,这有望加速全球其他天文台档案的采用——据估计,全球约有200万张历史底片。
关键参与者与案例研究
这项研究由哈佛-史密森天体物理中心(CfA)与马克斯·普朗克天文研究所(MPIA)合作领导。CfA拥有全球最大的天文玻璃底片收藏——超过50万张——来自哈佛大学天文台的“计算机”项目,该项目在20世纪初雇佣了像亨丽埃塔·斯旺·莱维特这样的女性来编录恒星。目前,这些数据正通过DASCH(哈佛百年天空数字化访问)项目系统地进行数字化,该项目已扫描了约30%的收藏。
首席研究员埃琳娜·沃斯博士(化名)此前曾从事基于机器学习的瞬变天体检测工作,服务于使用现代CCD相机的兹威基瞬变设施(ZTF)。她意识到,只要经过适当的预处理,相同的算法可以适用于历史底片。团队中还包括乳剂化学专家,他们为伪影模拟提供了建议。
| 档案库 | 底片数量 | 数字化进度 | 是否具备机器学习条件? |
|---|---|---|---|
| 哈佛大学天文台 | 500,000 | 已扫描30% | 是(流水线已测试) |
| 德国索内贝格天文台 | 270,000 | 已扫描15% | 进行中 |
| 爱丁堡皇家天文台 | 150,000 | 已扫描5% | 否(需要资金) |
| 帕洛马天文台 | 100,000 | 已扫描0% | 否 |
数据要点: 全球底片档案中只有一小部分完成了数字化,而具备机器学习条件的更是少之又少。瓶颈不在于算法,而在于数字化基础设施和资金。这为优先进行扫描的机构创造了先发优势,因为它们将解锁最多的发现。
一项并行的工作来自VASCO(百年观测中消失与出现的光源)项目,该项目利用公民科学家对底片进行目视检查。虽然VASCO已经发现了一些有趣的天体,但其处理能力有限。机器学习方法有望将这一工作的规模提升数个数量级。