技术深度解析
HyenaDNA的核心创新在于架构层面,而非简单的规模扩展。Transformer的自注意力机制虽然强大,但其内存和计算复杂度相对于序列长度(n)为O(n²)。对于长度可达数百万的基因组序列而言,这变得难以承受。先前缓解此问题的尝试,如稀疏注意力(用于Longformer或BigBird等模型)或线性注意力近似,往往牺牲了捕捉所有配对相互作用的能力,或引入了显著的性能折衷。
Hyena算子最初由Poli等人在2023年的论文《Hyena Hierarchy: Towards Larger Convolutional Language Models》中提出,它采取了一种截然不同的方法。它完全摒弃了注意力机制,转而通过由隐式神经网络参数化的长卷积和逐元素乘法门控来构建序列混合器。该算子的结构是一种递推形式:`y = (h * (x ⊙ g(x)))`,其中`*`表示卷积,`h`是长卷积滤波器,`g`是一个前馈网络,`⊙`是逐元素乘法。通过使用快速傅里叶变换(FFT)来计算卷积,该算子实现了O(n log n)的复杂度。
对于基因组数据,这种架构转变尤其有效。DNA既具有局部模式(如转录因子结合基序),也具有全局的、层次化的结构(如拓扑关联结构域)。长卷积的滤波器可以跨越整个序列上下文,天生适合捕捉这些多尺度的依赖关系。HyenaDNA的实现将该算子适配到一个仅解码器的架构中,使用DNA字母(A、C、G、T、N)的字节级标记化来表示序列。该模型使用下一标记预测目标在人类参考基因组(GRCh38)上进行预训练,从而学习到对基因组序列丰富且上下文感知的表示。
与成熟的基因组模型进行基准测试揭示了其效率优势。下表比较了关键的架构和性能特征。
| 模型 | 架构 | 最大上下文长度 | 相对训练成本(100万标记) | 关键基因组基准测试(平均) |
|---|---|---|---|---|
| HyenaDNA (100万) | Hyena算子 | 1,000,000 | 1.0x(基线) | 87.5%(5项任务) |
| Nucleotide Transformer | Transformer | 6,000 | ~150x | 85.1% |
| DNABERT-2 | Transformer | 512 | ~1900x | 82.3% |
| Enformer | Transformer + 注意力 | 200,000 | ~5x(估计) | 89.0%(特定任务) |
| HyenaDNA (5万) | Hyena算子 | 50,000 | 0.3x | 86.8% |
*注:训练成本是基于100万上下文下相对于HyenaDNA的FLOPs理论估计,突出扩展效率。基准测试平均值是启动子预测、剪接位点检测、转录因子结合位点分类等任务的综合得分。*
数据要点:HyenaDNA的亚二次方扩展为长上下文提供了显著的效率优势。虽然Enformer能处理20万个标记,但其基于注意力的核心使得扩展到100万在计算上非常密集。HyenaDNA以规模上极低的成本实现了有竞争力的准确率,使得百万标记的分析变得实际可行。
官方GitHub仓库(`hazyresearch/hyena-dna`)正在积极维护,提供了不同规模(从1k到100万上下文)的预训练模型、微调脚本和评估代码。其日益增长的人气(772颗星)反映了研究人员对这款能绕过先前长度限制的实用开源工具的浓厚兴趣。
关键参与者与案例研究
HyenaDNA的开发由Michael Poli、Stefano Massaroli以及Hazy Research团队(斯坦福DAWN实验室中由Chris Ré领导的一个小组)主导。该小组在系统与算法效率的交叉创新方面有着良好的记录,此前曾为S4长序列模型和FlashAttention优化等项目做出贡献。他们的策略很明确:识别基础AI中的根本性计算瓶颈(如注意力的O(n²)成本),并设计新的、基于数学原理的基元来克服它们。
HyenaDNA进入了一个竞争激烈的领域,不同的参与者正为基因组AI追求不同的策略:
- DeepMind (谷歌):凭借Enformer,他们专注于一个特定的高价值输出:从序列预测染色质图谱和基因表达。它结合了局部和全局注意力来实现20万个碱基对的上下文。其优势在于在其设计的任务上具有极高的准确性,但其架构不易扩展到其固定的输入窗口之外。
- Meta AI:Nucleotide Transformer系列提供了基于Transformer的大型模型,并在多样化的基因组数据集上进行了预训练。他们的策略是规模和广度,提供参数高达25亿的模型。然而,它们仍然受限于Transformer的上下文窗口,通常上限在数千个标记。