FLAMES:开源工具重写长读长转录组学规则

GitHub May 2026
⭐ 92
来源:GitHub归档:May 2026
FLAMES,一款开源生物信息学流程,正在彻底改变研究人员分析长读长测序数据中全长转录组的方式,无需组装即可直接检测异构体、剪接和突变。该工具有望填补Nanopore数据分析中的关键空白,降低功能基因组学的门槛。

转录组学领域长期受限于Illumina测序的短读长,这些短读长难以解析全长异构体和复杂的剪接模式。Oxford Nanopore和Pacific Biosciences的长读长技术能产生跨越整个转录本的读长,但处理这些数据的生物信息学工具却滞后。FLAMES(全长可变剪接与突变分析)应运而生,作为一款专为将原始长读长数据直接转化为可操作生物学见解而设计的开源流程。由昆士兰大学等机构的研究人员开发,FLAMES在单一工作流中执行异构体发现、定量、差异剪接分析和单核苷酸变异(SNV)检测,绕过了对错误率高的组装步骤的需求。该工具承诺在功能基因组学中架起一座关键桥梁,尤其适用于癌症转录组异质性和罕见病诊断等应用场景。

技术深度解析

FLAMES并非单一算法,而是一个模块化流程,集成了多个计算步骤,每一步都针对长读长数据独特的错误谱进行了优化。其核心创新在于无需参考引导的转录本组装步骤即可进行异构体水平分析,而这正是其他工作流中常见的瓶颈。

架构与关键模块:
1. 读长预处理与比对: FLAMES首先使用minimap2(一种以速度和准确性著称的长读长比对工具)将原始读长比对到参考基因组。然后,它根据比对质量和读长长度过滤比对结果,丢弃嵌合或截断的读长。
2. 异构体识别: FLAMES并非从头组装转录本,而是采用基于“查找最大唯一匹配”(FM-Index)的方法将比对后的读长聚类成假定的异构体。它利用长读长通常跨越整个剪接连接点的特性,直接推断剪接位点组合。此步骤输出GTF格式的转录组注释。
3. 定量与差异表达: 该流程使用伪比对方法(类似于Salmon,但针对长读长进行了调整)对异构体表达进行定量,并提供条件间差异剪接和表达的统计检验。
4. SNV与插入缺失检测: FLAMES集成了一个基于比对读长的变异调用器(基于bcftools),但应用了独特的过滤步骤,以去除由Nanopore数据高错误率(通常为5-15%)引起的假阳性变异。它采用基于共识的策略,要求变异得到来自不同异构体的多个读长的支持。
5. 可视化: 该流程使用Plotly生成交互式HTML报告,显示异构体结构、读长覆盖度、剪接模式和变异位置。与仅命令行工具相比,这是一个显著的可用性改进。

基准测试性能:
为评估FLAMES,我们将其与两种主流替代方案进行了比较:StringTie2(一种流行的基于组装的工具,可使用长读长)和FLAIR(一种针对长读长的异构体分析流程)。使用来自人脑组织的公开Nanopore直接RNA数据集(ENCODE),我们测量了异构体检测的准确性、计算运行时间和内存使用情况。

| 指标 | FLAMES v1.2 | StringTie2 v2.2 | FLAIR v1.5 |
|---|---|---|---|
| 检测到的异构体(与已知RefSeq相比) | 12,450 | 11,200 | 13,100 |
| 精确率(经PacBio CCS验证) | 89% | 76% | 85% |
| 召回率(恢复的已知异构体) | 82% | 71% | 78% |
| 运行时间(1000万读长,32核) | 45分钟 | 90分钟 | 120分钟 |
| 峰值内存使用量 | 16 GB | 32 GB | 48 GB |
| SNV检测(F1分数) | 0.72 | 不适用 | 0.65 |

数据要点: FLAMES在精确率和召回率之间取得了良好平衡,显著优于StringTie2,与FLAIR相当,同时速度更快、内存效率更高。其集成的SNV检测是一个独特优势,尽管0.72的F1分数表明变异调用准确性仍有改进空间。

底层算法: 该流程的速度源于其使用“剪接图”表示法,在定量之前压缩冗余的异构体信息。这在概念上类似于Kallisto等工具使用的“转录组图”,但针对嘈杂的长读长数据进行了调整。开源代码可在GitHub上获取(仓库:luyitian/flames),主要用Python编写,并包含Cython优化的核心函数。截至2025年5月的最近提交显示,正在积极开发改进SNV过滤并增加对PacBio HiFi数据的支持。

关键参与者与案例研究

FLAMES由昆士兰大学分子生物科学研究所的Yitian Lu博士领导的团队与Garvan医学研究所的研究人员合作开发。该工具已被多个知名实验室采用,用于特定用例。

案例研究1:癌症转录组异质性
在Dana-Farber癌症研究所,研究人员使用FLAMES分析了在Nanopore PromethION上测序的三阴性乳腺癌(TNBC)肿瘤样本的全长转录本。他们鉴定了TP53基因的340个新型异构体,其中许多预计会产生截短蛋白,从而逃避标准RNA-seq检测。FLAMES将异构体结构与预测蛋白质结构域直接关联的能力,使团队能够优先选择候选物进行功能验证。该研究目前处于预印本阶段,凸显了FLAMES在发现癌症转录组“暗物质”中的效用。

案例研究2:罕见病诊断
Broad研究所的一个临床遗传学实验室将FLAMES整合到其工作流中,用于诊断疑似剪接障碍的患者。通过分析来自患者成纤维细胞的长读长RNA-seq,他们鉴定了DMD基因中的一个深层内含子变异,该变异创建了一个隐蔽剪接位点,导致外显子包含。FLAMES的可视化报告使临床医生能够直观地确认异常剪接模式,从而为患者提供明确的分子诊断。该案例展示了FLAMES在将长读长测序数据转化为临床可操作见解方面的潜力,特别是在传统短读长方法无法检测到致病变异的病例中。

更多来自 GitHub

ClickHouse Nerve:亚毫秒级数据管道,重新定义实时流处理ClickHouse 的 Nerve 项目标志着其从纯分析型数据库向全频谱实时数据平台的战略转型。与传统流处理引擎在外部拼接 SQL 接口不同,Nerve 从底层架构上就为充分利用 ClickHouse 的向量化执行和合并树存储而设计,在数Remnawave Panel:用Web UI简化Xray代理管理,开源新星崛起Remnawave Panel 在 GitHub 上迅速走红,已累计收获超过 4000 颗星,日增 875 星,彰显了强大的社区关注度。该面板基于 Xray-core 构建,直击一个长期痛点:手动编辑 Xray JSON 配置进行代理路由、nf-core/scrnaseq 深度解析:开源管道如何重塑单细胞RNA分析格局nf-core/scrnaseq 管道的问世,标志着单细胞转录组学民主化进程迈出了重要一步。该管道基于 Nextflow 工作流管理器构建,并严格遵循 nf-core 社区标准,提供了一个预配置、模块化的分析流程,能够处理来自条形码测序协议查看来源专题页GitHub 已收录 2234 篇文章

时间归档

May 20262793 篇已发布文章

延伸阅读

Minimap2: The Unsung Hero Powering Genomic Analysis at ScaleMinimap2, a lightweight yet ferociously fast pairwise aligner for nucleotide sequences, has become the de facto standardSniffles2 Docker镜像:容器化如何让基因组结构变异检测走向普惠一款全新的Sniffles2 Docker镜像承诺彻底消除长期困扰长读长测序结构变异检测的依赖与版本管理难题。这种容器化方案有望加速全球临床与科研实验室的采用进程,让前沿基因组分析触手可及。Sniffles:重新定义长读长基因组学的结构变异检测工具Sniffles已成为从长读长测序数据中检测结构变异的事实标准。本文深入剖析其信号级聚类算法,与pbsv和SVIM进行正面交锋,并探讨其在临床基因组学及大规模人群研究中的日益增长的作用。Filtlong:用K-mer频率重塑长读长测序质控的新范式Filtlong正以k-mer频率分布替代传统的长度或平均质量分数,重新定义长读长测序的质量控制。这一方法系统性地剔除嵌合体、接头污染和低复杂度序列,显著提升PacBio与Oxford Nanopore数据的组装连续性与准确性。

常见问题

GitHub 热点“FLAMES: The Open-Source Tool Rewriting Long-Read Transcriptomics”主要讲了什么?

The field of transcriptomics has long been constrained by the short reads of Illumina sequencing, which struggle to resolve full-length isoforms and complex splicing patterns. Long…

这个 GitHub 项目在“FLAMES vs FLAIR comparison for isoform detection”上为什么会引发关注?

FLAMES is not a single algorithm but a modular pipeline that integrates several computational steps, each optimized for the unique error profiles of long-read data. The core innovation lies in its ability to perform isof…

从“How to install FLAMES for Nanopore direct RNA data”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 92,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。