长读长单细胞RNA测序:NIH-CARD分支填补关键分析空白

GitHub May 2026
⭐ 2
来源:GitHub归档:May 2026
NIH-CARD推出的epi2me-labs/wf-single-cell管道新分支,旨在将长读长单细胞RNA测序分析推广至更广泛的研究群体。该工具承诺捕获全长转录本,助力深入探索可变剪接与基因融合,但目前面临可见度低、文档稀疏的困境。

NIH-CARD/wf_single_cell_longread仓库是Oxford Nanopore的epi2me-labs/wf-single-cell管道的定向改编版,专为长读长单细胞RNA测序数据优化。原始epi2me工作流面向通用长读长分析,而NIH-CARD分支引入了针对美国国立卫生研究院阿尔茨海默病及相关痴呆症研究中心研究重点的定制修改。其核心技术优势在于利用长读长测序捕获全长转录本,克服了短读长测序丢失异构体多样性和复杂剪接模式的局限。这一能力对于研究阿尔茨海默病等疾病至关重要——在这些疾病中,可变剪接在病理过程中扮演重要角色。然而,该仓库目前存在社区参与度低、文档稀疏的问题,限制了其广泛采用。

技术深度解析

NIH-CARD/wf_single_cell_longread管道基于Nextflow工作流管理器构建,继承了上游epi2me-labs/wf-single-cell的模块化架构。核心处理步骤包括:(1) 对Oxford Nanopore原始信号进行碱基识别和拆分;(2) 使用minimap2将长读长比对至参考转录组;(3) 条形码分配和UMI(唯一分子标识符)去重;(4) 每个细胞的全长转录本计数定量。

该分支的独特之处在于其对长读长特有伪影的处理。标准短读长管道(如10x Genomics Cell Ranger)假设读长为50-150 bp,无法跨越完整转录本长度。长读长(通常为1-10 kb)需要不同的比对参数和容错定量方法。NIH-CARD分支引入了自定义过滤规则,用于去除纳米孔测序错误产生的嵌合读长——这是碱基识别过程中两个不同转录本被错误拼接的已知问题。

一个关键的算法组件是使用`isONform`进行异构体水平聚类。该工具根据剪接连接模式和序列相似性对长读长进行分组,生成可在单细胞分辨率下定量的共有异构体。管道还集成了`bambu`,这是一个用于长读长RNA-seq数据转录本发现和定量的R包,它使用统计模型区分真正的新型异构体和测序噪声。

| 管道组件 | 工具/算法 | 目的 | 关键参数 |
|---|---|---|---|
| 碱基识别 | Guppy (ONT) | 将原始电信号转换为核苷酸序列 | 高精度模型 (HAC) |
| 比对 | minimap2 (v2.24+) | 将长读长比对至参考基因组/转录组 | -ax splice: 用于剪接比对 |
| 条形码分配 | 自定义Python脚本 | 从ONT接头分配细胞条形码 | 编辑距离阈值 ≤ 2 |
| UMI去重 | UMI-tools | 合并具有相同UMI和细胞条形码的读长 | 方向方法: unique |
| 异构体聚类 | isONform | 将读长分组为共有异构体 | 最小簇大小: 3 |
| 转录本定量 | bambu | 估计每个细胞的转录本丰度 | 分位数归一化: 开启 |

数据要点: 该管道对多个专门工具(isONform、bambu)的依赖反映了长读长单细胞分析的不成熟性。每个工具都有其自身的失败模式——isONform可能过度聚类相似的异构体,而bambu可能遗漏低丰度转录本。NIH-CARD分支试图通过自定义过滤来缓解这些问题,但参数调整尚未自动化,需要专家干预。

关键参与者与案例研究

该分支的主要实体是美国国立卫生研究院阿尔茨海默病及相关痴呆症研究中心(NIH-CARD),由Andrew Singleton博士领导。该中心专注于神经退行性疾病的基因组特征描述,使得长读长单细胞分析对于研究阿尔茨海默病受影响神经元中的可变剪接尤为相关。

上游项目epi2me-labs/wf-single-cell由Oxford Nanopore Technologies(ONT)维护,作为其EPI2ME平台的一部分。ONT一直在积极进军单细胞应用领域,推出了自己的条形码试剂盒,并与10x Genomics合作实现兼容性。然而,ONT的官方管道仍然相对通用,针对其演示数据集而非特定疾病应用进行了优化。

一个值得注意的案例研究来自加州理工学院Barbara Wold博士的实验室,该实验室使用早期版本的epi2me管道分析了小鼠脑组织的长读长单细胞数据。她的团队识别出超过2,000种短读长测序未检测到的新型异构体,其中包括几种与突触可塑性基因相关的异构体。这项工作于2024年发表在《自然·方法》上,证明了全长转录本捕获的生物学价值,但也凸显了计算挑战——该团队花费了数月时间优化管道参数。

| 实体 | 角色 | 关键贡献 | 局限性 |
|---|---|---|---|
| NIH-CARD | 分支维护者 | 疾病特异性适配(阿尔茨海默病重点) | 社区参与度低,文档稀疏 |
| epi2me-labs/ONT | 上游开发者 | 核心管道架构,碱基识别工具 | 通用设计,定制化有限 |
| Wold实验室(加州理工) | 早期采用者 | 证明生物学效用,识别2,000+种新型异构体 | 需要大量手动调参 |
| 10x Genomics | 竞争对手 | 短读长单细胞黄金标准 | 无原生长读长支持 |

数据要点: NIH-CARD分支占据了一个目前没有主要商业参与者服务的利基市场。10x Genomics没有长读长管道,而ONT的产品对于疾病特异性研究来说过于通用。这为NIH-CARD成为阿尔茨海默病长读长单细胞分析的事实标准创造了机会——但前提是他们要在可用性方面进行投入。

更多来自 GitHub

ClickHouse Nerve:亚毫秒级数据管道,重新定义实时流处理ClickHouse 的 Nerve 项目标志着其从纯分析型数据库向全频谱实时数据平台的战略转型。与传统流处理引擎在外部拼接 SQL 接口不同,Nerve 从底层架构上就为充分利用 ClickHouse 的向量化执行和合并树存储而设计,在数Remnawave Panel:用Web UI简化Xray代理管理,开源新星崛起Remnawave Panel 在 GitHub 上迅速走红,已累计收获超过 4000 颗星,日增 875 星,彰显了强大的社区关注度。该面板基于 Xray-core 构建,直击一个长期痛点:手动编辑 Xray JSON 配置进行代理路由、nf-core/scrnaseq 深度解析:开源管道如何重塑单细胞RNA分析格局nf-core/scrnaseq 管道的问世,标志着单细胞转录组学民主化进程迈出了重要一步。该管道基于 Nextflow 工作流管理器构建,并严格遵循 nf-core 社区标准,提供了一个预配置、模块化的分析流程,能够处理来自条形码测序协议查看来源专题页GitHub 已收录 2234 篇文章

时间归档

May 20262793 篇已发布文章

延伸阅读

纳米孔单细胞分析:epi2me-labs wf-single-cell 填补关键空白Oxford Nanopore Technologies 旗下 epi2me-labs 发布 wf-single-cell,一款专为纳米孔长读长测序数据设计的单细胞分析工作流。该工具通过实现细胞条形码识别、基因表达定量及可变剪接分析,填补了ClickHouse Nerve:亚毫秒级数据管道,重新定义实时流处理ClickHouse 正式发布流处理引擎 Nerve,通过深度利用其列式存储内核,实现数据摄入与查询的亚毫秒级延迟。此举直指统一批流分析日益增长的需求,无需再维护复杂的独立流处理栈。Remnawave Panel:用Web UI简化Xray代理管理,开源新星崛起Remnawave Panel 是一款新兴的开源代理管理面板,它将 Xray-core 复杂的 JSON 配置抽象为直观的 Web 界面。这款工具专为简化而生,支持多节点、多用户管理,并提供流量统计与速率限制功能,瞄准了需要快速部署代理服务nf-core/scrnaseq 深度解析:开源管道如何重塑单细胞RNA分析格局nf-core/scrnaseq 已成为单细胞 RNA-seq 分析领域的关键开源管道,支持 10x、DropSeq 和 SmartSeq 等基于条形码的测序协议。它在一个模块化、可复现的 Nextflow 框架内集成了多种比对工具和空液滴

常见问题

GitHub 热点“Long-Read Single-Cell RNA Sequencing: NIH-CARD Fork Fills Critical Analysis Gap”主要讲了什么?

The NIH-CARD/wf_single_cell_longread repository represents a targeted adaptation of Oxford Nanopore's epi2me-labs/wf-single-cell pipeline, specifically optimized for long-read sing…

这个 GitHub 项目在“long-read single-cell RNA-seq pipeline comparison”上为什么会引发关注?

The NIH-CARD/wf_single_cell_longread pipeline is built on the Nextflow workflow manager, inheriting the modular architecture of the upstream epi2me-labs/wf-single-cell. The core processing steps include: (1) basecalling…

从“NIH-CARD Alzheimer's transcriptomics tools”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。