HyenaDNA:新型架构如何突破基因组长度壁垒

GitHub March 2026
⭐ 772
来源:GitHub归档:March 2026
斯坦福Hazy Research实验室的研究人员开发出一类全新的基因组基础模型HyenaDNA,它通过创新的Hyena算子,能够处理长达100万个标记的上下文,彻底打破了以往的长度限制,为理解基因调控与非编码DNA开辟了新前沿。

基因组AI领域长期受制于一个根本性瓶颈:Transformer注意力机制的二次计算复杂度,严重限制了模型能处理的上下文长度。人类DNA包含数十亿碱基对,其调控元件往往相隔遥远,而大多数基因组模型此前仅能一次性分析数千个标记。这使得基因组的“暗物质”——那些调控基因表达的非编码区域——在很大程度上无法被AI进行全面分析。

HyenaDNA代表了一种范式转变。通过采用Hyena架构——该架构以长卷积和逐元素门控的组合取代了注意力机制——该模型实现了亚二次方的计算复杂度扩展。这一技术突破使得模型能够以前所未有的长度处理完整基因组序列,将上下文窗口扩展到100万个标记。这不仅大幅降低了长序列分析的计算成本,更重要的是,它首次让AI能够直接建模基因组中长程的相互作用和依赖关系,为解析基因调控网络、理解非编码区域功能以及探索遗传变异的影响提供了强大工具。

该模型采用仅解码器架构,并对DNA字母(A、C、G、T、N)进行字节级标记化,通过在人类参考基因组(GRCh38)上进行下一标记预测任务进行预训练,从而学习到丰富且上下文感知的基因组序列表示。与现有基因组模型相比,HyenaDNA在保持竞争力的准确率的同时,在长上下文处理效率上具有数量级优势,标志着基因组AI从“片段分析”迈向“全景解读”的关键一步。

技术深度解析

HyenaDNA的核心创新在于架构层面,而非简单的规模扩展。Transformer的自注意力机制虽然强大,但其内存和计算复杂度相对于序列长度(n)为O(n²)。对于长度可达数百万的基因组序列而言,这变得难以承受。先前缓解此问题的尝试,如稀疏注意力(用于Longformer或BigBird等模型)或线性注意力近似,往往牺牲了捕捉所有配对相互作用的能力,或引入了显著的性能折衷。

Hyena算子最初由Poli等人在2023年的论文《Hyena Hierarchy: Towards Larger Convolutional Language Models》中提出,它采取了一种截然不同的方法。它完全摒弃了注意力机制,转而通过由隐式神经网络参数化的长卷积和逐元素乘法门控来构建序列混合器。该算子的结构是一种递推形式:`y = (h * (x ⊙ g(x)))`,其中`*`表示卷积,`h`是长卷积滤波器,`g`是一个前馈网络,`⊙`是逐元素乘法。通过使用快速傅里叶变换(FFT)来计算卷积,该算子实现了O(n log n)的复杂度。

对于基因组数据,这种架构转变尤其有效。DNA既具有局部模式(如转录因子结合基序),也具有全局的、层次化的结构(如拓扑关联结构域)。长卷积的滤波器可以跨越整个序列上下文,天生适合捕捉这些多尺度的依赖关系。HyenaDNA的实现将该算子适配到一个仅解码器的架构中,使用DNA字母(A、C、G、T、N)的字节级标记化来表示序列。该模型使用下一标记预测目标在人类参考基因组(GRCh38)上进行预训练,从而学习到对基因组序列丰富且上下文感知的表示。

与成熟的基因组模型进行基准测试揭示了其效率优势。下表比较了关键的架构和性能特征。

| 模型 | 架构 | 最大上下文长度 | 相对训练成本(100万标记) | 关键基因组基准测试(平均) |
|---|---|---|---|---|
| HyenaDNA (100万) | Hyena算子 | 1,000,000 | 1.0x(基线) | 87.5%(5项任务) |
| Nucleotide Transformer | Transformer | 6,000 | ~150x | 85.1% |
| DNABERT-2 | Transformer | 512 | ~1900x | 82.3% |
| Enformer | Transformer + 注意力 | 200,000 | ~5x(估计) | 89.0%(特定任务) |
| HyenaDNA (5万) | Hyena算子 | 50,000 | 0.3x | 86.8% |

*注:训练成本是基于100万上下文下相对于HyenaDNA的FLOPs理论估计,突出扩展效率。基准测试平均值是启动子预测、剪接位点检测、转录因子结合位点分类等任务的综合得分。*

数据要点:HyenaDNA的亚二次方扩展为长上下文提供了显著的效率优势。虽然Enformer能处理20万个标记,但其基于注意力的核心使得扩展到100万在计算上非常密集。HyenaDNA以规模上极低的成本实现了有竞争力的准确率,使得百万标记的分析变得实际可行。

官方GitHub仓库(`hazyresearch/hyena-dna`)正在积极维护,提供了不同规模(从1k到100万上下文)的预训练模型、微调脚本和评估代码。其日益增长的人气(772颗星)反映了研究人员对这款能绕过先前长度限制的实用开源工具的浓厚兴趣。

关键参与者与案例研究

HyenaDNA的开发由Michael Poli、Stefano Massaroli以及Hazy Research团队(斯坦福DAWN实验室中由Chris Ré领导的一个小组)主导。该小组在系统与算法效率的交叉创新方面有着良好的记录,此前曾为S4长序列模型和FlashAttention优化等项目做出贡献。他们的策略很明确:识别基础AI中的根本性计算瓶颈(如注意力的O(n²)成本),并设计新的、基于数学原理的基元来克服它们。

HyenaDNA进入了一个竞争激烈的领域,不同的参与者正为基因组AI追求不同的策略:

- DeepMind (谷歌):凭借Enformer,他们专注于一个特定的高价值输出:从序列预测染色质图谱和基因表达。它结合了局部和全局注意力来实现20万个碱基对的上下文。其优势在于在其设计的任务上具有极高的准确性,但其架构不易扩展到其固定的输入窗口之外。
- Meta AINucleotide Transformer系列提供了基于Transformer的大型模型,并在多样化的基因组数据集上进行了预训练。他们的策略是规模和广度,提供参数高达25亿的模型。然而,它们仍然受限于Transformer的上下文窗口,通常上限在数千个标记。

更多来自 GitHub

Distilabel:架起研究与生产桥梁的合成数据管道Distilabel 由 Argilla 团队开发,是一个用于构建快速、可靠且可扩展的合成数据生成与 AI 反馈管道的 Python 框架。它将来自同行评审论文的方法论(如 Self-Instruct、UltraFeedback 和 Con开源SEO工具Open SEO横空出世,免费自托管挑战Ahrefs与Semrush垄断Open SEO,一个在GitHub上全新发布的开源项目,通过将自己定位为商业SEO巨头Semrush和Ahrefs的免费、自托管替代方案,迅速积累了超过3600个星标。该工具提供核心功能,包括关键词研究、反向链接分析、网站审计和竞争对手追S-UI Web面板单日狂揽9300星:Sing-Box管理迎来现代化图形界面S-UI(alireza0/s-ui)是一款专为Sing-Box代理核心设计的高级Web管理面板,而Sing-Box本身是SagerNet项目的继任者。在长期由命令行配置和零散第三方工具主导的领域,S-UI提供了一套统一、现代的图形用户界面查看来源专题页GitHub 已收录 3132 篇文章

时间归档

March 20262347 篇已发布文章

延伸阅读

Distilabel:架起研究与生产桥梁的合成数据管道Distilabel 是一个开源框架,能直接从经同行评审的研究论文中构建合成数据与 AI 反馈管道。它承诺弥合学术突破与生产级训练数据之间的鸿沟,但其与 Argilla 生态系统的深度绑定引发了关于独立性的质疑。开源SEO工具Open SEO横空出世,免费自托管挑战Ahrefs与Semrush垄断一款名为Open SEO的全新开源项目,以免费、自托管的SEO分析平台,向Semrush和Ahrefs的霸主地位发起冲击。上线首日即斩获超3600个GitHub星标,旨在为中小企业与注重隐私的企业,实现专业SEO工具的民主化。S-UI Web面板单日狂揽9300星:Sing-Box管理迎来现代化图形界面S-UI,一款专为管理SagerNet/Sing-Box代理服务打造的现代化Web图形界面,在GitHub上单日斩获超过9300颗星,迅速引爆社区。AINews深入探究,这款工具何以成为代理基础设施管理领域的潜在颠覆者。英语进阶指南:一个GitHub项目如何重新定义自学语言 mastery一个拥有55,000颗星标的GitHub仓库——byoungd/english-level-up-tips,已成为高级英语学习者中的现象级存在。本文深度剖析为何一份纯文本指南能超越众多多媒体应用,并揭示其对未来自主学习语言方式的启示。

常见问题

GitHub 热点“HyenaDNA: How a Novel Architecture Breaks the Genome Length Barrier”主要讲了什么?

The field of genomic AI has been constrained by a fundamental bottleneck: the quadratic computational complexity of the Transformer's attention mechanism, which severely limits the…

这个 GitHub 项目在“HyenaDNA vs Enformer performance benchmark”上为什么会引发关注?

At its core, HyenaDNA's innovation is architectural, not merely scaling. The Transformer's self-attention mechanism, while powerful, has an O(n²) memory and computational complexity relative to sequence length (n). For g…

从“How to fine-tune HyenaDNA for custom genomic tasks”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 772,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。