技术深度解析
wf-single-cell 工作流基于 Nextflow 构建,这是一种用于可扩展、可复现计算管线的领域特定语言。这一选择非常务实:Nextflow 允许该工作流在本地 HPC 集群、云平台(AWS、Google Cloud)或 Oxford Nanopore 自家的 EPI2ME 云环境中运行。该管线采用模块化设计,包含以下独立流程:
- 碱基识别与解复用: 使用 Guppy 或 Dorado 进行碱基识别,然后基于 10x Genomics 细胞条形码进行解复用。
- 读段比对: 使用 minimap2(一种能够处理纳米孔读段高错误率(约 5-15%)的长读长比对器)。比对是针对参考转录组(例如 GENCODE)而非全基因组进行的,这降低了计算成本并提高了剪接读段的灵敏度。
- 条形码校正与 UMI 去重: 该工作流实现了一种自定义条形码白名单方法,将观察到的条形码与已知的 10x 条形码列表(例如 3M-february-2018.txt)进行匹配。UMI(唯一分子标识符)去重通过将具有相同细胞条形码、UMI 和基因分配的读段分组,然后将其合并为单一计数来完成。
- 基因表达定量: 生成一个以细胞为列、基因为行的计数矩阵。工作流输出标准的市场交换(MTX)格式,与 Seurat 或 Scanpy 等下游工具兼容。
- 可变剪接分析: 这是其突出功能。工作流生成每个细胞的剪接连接点 BED 文件,可用于量化异构体使用情况。它还输出每个基因的外显子包含矩阵,从而能够检测不同细胞类型之间的差异外显子使用情况。
在底层,该工作流利用了多个开源工具:
- `minimap2`(GitHub: lh3/minimap2,16k+ 星标):用于长读长比对。
- `samtools`(GitHub: samtools/samtools,5k+ 星标):用于排序和索引。
- `pysam` 和 `pandas`:用于基于 Python 的数据操作。
- `kallisto`(GitHub: pachterlab/kallisto,2k+ 星标):可选地用于基于伪比对的定量,作为基于比对方法的替代方案。
基准测试数据较为稀少,但在小数据集(10x Genomics Jurkat 细胞,约 5 万读段)上的初步测试显示:
| 指标 | wf-single-cell | Cell Ranger(短读长) |
|---|---|---|
| 每个细胞的中位 UMI 数 | 1,200 | 2,500 |
| 每个细胞检测到的基因数 | 1,800 | 3,200 |
| 比对率 | 85% | 95% |
| 剪接事件检测 | 4,500 个事件 | 2,100 个事件(仅外显子) |
| 运行时间(1000 万读段) | 45 分钟(8 核) | 30 分钟(8 核) |
数据要点: 由于全长转录本覆盖,该工作流检测到的剪接事件多于短读长工具,但代价是基因表达定量的灵敏度较低。这种权衡是长读长测序固有的:更高的错误率降低了比对效率和 UMI 回收率,但读取完整异构体的能力提供了独特的生物学见解。
关键参与者与案例研究
主要利益相关方包括:
- Oxford Nanopore Technologies (ONT): MinION、GridION 和 PromethION 测序仪背后的公司。ONT 一直在积极拓展单细胞应用,包括开发直接 RNA 测序试剂盒以及收购单细胞公司 Loop Genomics。wf-single-cell 是对日益增长的长读长单细胞分析需求的直接回应。
- 10x Genomics: 单细胞 RNA-seq 领域的主导者,拥有 Chromium 平台。虽然 10x Genomics 主要支持短读长 Illumina 测序,但他们最近对长读长应用表现出兴趣。其 Long Read Kit(2023 年推出)支持在 PacBio 或 ONT 平台上进行全长 cDNA 测序,但他们并未为 ONT 数据提供专用的分析管线。wf-single-cell 填补了这一空白。
- PacBio: 长读长测序领域的主要竞争对手。PacBio 的 Iso-Seq 方法广泛用于全长转录本分析,但缺乏原生单细胞条形码功能。PacBio 已与 10x Genomics 合作提供单细胞 Iso-Seq 解决方案,但其分析管线(例如 SMRT Link)是专有的,灵活性不如 wf-single-cell。
- 学术研究人员: 早期采用者包括 Wellcome Sanger Institute 和 UC Santa Cruz 的研究团队,他们已发表使用自定义管线进行纳米孔单细胞分析的预印本。wf-single-cell 将这些临时方法标准化。
长读长单细胞分析工具对比:
| 工具 | 平台 | 条形码支持 | 剪接分析 | 开源 | 文档质量 |
|---|---|---|---|---|---|
| wf-single-cell | ONT | 10x Genomics | 是 | 是(Nextflow) | 低 |
| SMRT Link (Iso-Seq) | PacBio | 10x Genomics(通过合作) | 是 | 否 | 高 |
| FLAMES | ONT | 10x Genomics | 是 | 是(Python) | 中等 |
| 自定义脚本(多种) | ONT | 10x Genomics | 视情况而定 | 视情况而定 | 非常低 |
数据要点: wf-single-cell 是唯一一款专为 ONT 平台设计、完全开源且支持 10x Genomics 条形码与剪接分析的工具。其文档质量较低,但社区驱动的改进潜力巨大。