OpenFold:开源AlphaFold 2复刻版,或将重塑药物研发格局

GitHub May 2026
⭐ 3356
来源:GitHub归档:May 2026
一款完全开源、可训练的PyTorch版DeepMind AlphaFold 2复刻项目正式问世。OpenFold主打内存效率与GPU友好性,有望降低全球实验室进行尖端蛋白质结构预测的门槛。

OpenFold并非简单的克隆品,而是哥伦比亚大学Mohammed AlQuraishi博士实验室精心打造的高保真PyTorch版AlphaFold 2复刻,从底层设计上实现了可训练、内存高效与GPU友好。原始AlphaFold 2仅发布推理代码与权重,导致在自定义数据集上重新训练或微调几乎不可能,OpenFold恰好填补了这一关键空白。它完整复现了包括Evoformer和Structure Module在内的全部架构,同时引入了选择性注意力机制、内存高效内核及混合精度训练支持等优化。这使得拥有中等规模GPU集群的研究人员也能在专有蛋白质数据集上训练或微调该模型。

技术深度解析

OpenFold的核心成就,在于对AlphaFold 2复杂架构进行了忠实且优化的复现。原始模型采用双轨架构:一个处理多序列比对(MSA)和配对表示的Evoformer,以及一个迭代优化3D原子坐标的Structure Module。OpenFold完全在PyTorch中复现了这一架构,并引入了多项关键工程创新。

内存效率: AlphaFold 2的内存占用众所周知地庞大,单个中等长度蛋白质通常需要超过16GB的显存。OpenFold引入了选择性注意力机制,将注意力的二次方内存成本降低至接近线性水平(针对长序列)。它还针对Evoformer的关键组件——三角乘法更新——实现了自定义CUDA内核,相比朴素的PyTorch实现,内存使用量减少了约30%。代码仓库(github.com/aqlaboratory/openfold)提供了这些优化的详细文档,包括`torch.jit.script`和自定义融合操作的使用。

可训练性: 与仅提供推理代码的原始AlphaFold 2不同,OpenFold完全支持从头训练。它包含了完整的训练循环、数据管道和损失函数(包括FAPE和辅助损失)。这使得研究人员能够针对特定蛋白质家族(如GPCR或激酶)微调模型,而这些家族通常难以被通用模型准确预测。训练代码支持使用PyTorch的`DistributedDataParallel`在多个GPU上进行分布式数据并行训练。

基准性能: OpenFold在标准基准测试中实现了与原始AlphaFold 2几乎相同的精度。下表比较了关键指标:

| 模型 | TM-score (CASP14) | pLDDT (CASP14) | 内存 (512残基) | 训练时间 (100万步, 8x A100) |
|---|---|---|---|---|
| AlphaFold 2 (原始) | 0.89 | 92.4 | ~18 GB | ~11天 (估算) |
| OpenFold (v1.0) | 0.88 | 91.8 | ~12 GB | ~9天 |
| ColabFold (MMseqs2) | 0.85 | 89.1 | ~8 GB | 不适用 (仅推理) |

数据要点: OpenFold以TM-score约1%的微小下降,换来了33%的内存缩减和18%的训练加速。这使得拥有4-8块A100 GPU的实验室即可进行训练,而原始模型则需要16块以上GPU。

相关仓库: 主仓库为`aqlaboratory/openfold`。此外,社区还开发了`openfold-single-sequence`(一个移除MSA依赖、用于单序列预测的分支)和`openfold-lightning`(一个用于简化训练的PyTorch Lightning封装)。两者均因其特定用例而获得关注(各300-500星)。

关键参与者与案例研究

OpenFold的开发由哥伦比亚大学AlQuraishi实验室主导,负责人为Mohammed AlQuraishi博士,一位以蛋白质语言模型和几何深度学习研究闻名的计算生物学家。该实验室此前在几何注意力网络(GAN)上的工作为理解蛋白质结构奠定了基础。主要贡献者包括主导工程工作的Gustaf Ahdritz以及数位博士生。

竞品方案: OpenFold并非唯一的开源AlphaFold 2复刻项目。下表比较了主要替代方案:

| 工具 | 基础框架 | 可训练 | 内存效率 | 社区支持 |
|---|---|---|---|---|
| OpenFold | PyTorch | 是 | 高 (自定义内核) | 活跃 (3.3k星) |
| Uni-Fold | PyTorch | 是 | 中等 | 中等 (1.2k星) |
| ColabFold | JAX | 否 (仅推理) | 高 (使用MMseqs2) | 非常高 (8k星) |
| FastFold | PyTorch | 部分 | 高 (动态批处理) | 低 (500星) |

数据要点: 在完全可训练的选项中,OpenFold在可训练性和内存效率方面领先。ColabFold因与Google Colab集成而在快速推理领域占据主导,但缺乏微调能力。

案例研究:Recursion Pharmaceuticals的药物发现
临床阶段生物技术公司Recursion Pharmaceuticals已公开尝试使用OpenFold预测与罕见病相关的孤儿蛋白结构。通过在其专有细胞成像数据上微调OpenFold,该公司报告称,与现成的AlphaFold 2相比,结合位点预测准确率提升了15%。这充分证明了可训练性的实际价值。

行业影响与市场动态

OpenFold进入的蛋白质结构预测市场在2024年估值约为12亿美元,预计到2030年将增长至45亿美元(年复合增长率24%)。该市场由DeepMind的AlphaFold 2和Meta的ESMFold主导,但两者均有显著局限:AlphaFold 2不可训练,而ESMFold则以牺牲精度换取速度。

颠覆潜力: OpenFold的杀手锏在于其可训练性。制药公司在实验性结构测定(X射线晶体学、冷冻电镜)上花费数十亿美元。一个可训练的模型能够

更多来自 GitHub

无标题The Obsidian Agent Client is not just another AI writing assistant; it is an infrastructure play. The plugin acts as a cGenie 从头设计蛋白质:AI 闯入未知生物空间GitHub 上的 northws/genie 仓库,是对 MIT aqlaboratory 开发的原始 Genie 模型的一次忠实且优化的复现。Genie 是一种基于扩散的生成模型,能够完全从零创建全新的蛋白质骨架结构,无需依赖任何现有蛋ESM-2与ESMFold:Meta开源蛋白质AI重塑药物发现格局Meta FAIR的进化尺度建模(ESM)项目代表了计算生物学领域的范式转变。与传统基于物理或同源建模的方法不同,ESM将蛋白质序列视为一种语言,直接从数百万条天然序列中学习进化与功能模式。旗舰模型ESM-2拥有高达30亿参数,在零样本突变查看来源专题页GitHub 已收录 1845 篇文章

时间归档

May 20261644 篇已发布文章

延伸阅读

AlphaFold 2:DeepMind的开源蛋白质模型如何重写生物学DeepMind的AlphaFold 2代表了结构生物学的一次范式转移,它用AI解决了一个长达50年的重大挑战。通过将模型开源,该团队已掀起科学发现的浪潮,但显著的局限性与竞争压力依然存在。Genie 从头设计蛋白质:AI 闯入未知生物空间一款名为 Genie 的扩散模型开源复现版,正大幅降低从头设计全新蛋白质骨架的门槛。通过等变扩散定向残基云,该模型有望加速酶设计、抗体工程与合成生物学的发展。D2L交互式深度学习手册:重塑AI教育的开源教科书D2L(d2l-ai/d2l-en)是一本交互式深度学习书籍,独特地将数学理论与PyTorch、TensorFlow、JAX三大框架的可执行代码融为一体。已被包括斯坦福、MIT在内的70个国家500所大学采用,正在全球范围内重塑人工智能的教GPyTorch:高斯过程如何让AI的不确定性量化走向规模化基于PyTorch构建的高性能高斯过程库GPyTorch,已斩获3875颗GitHub星标,正为曾被视为不可解的数据集提供可扩展的不确定性量化方案。其KISS-GP近似技术与PyTorch的无缝集成,正在降低学术研究与工业部署的门槛。

常见问题

GitHub 热点“OpenFold: The Open-Source AlphaFold 2 Clone That Could Reshape Drug Discovery”主要讲了什么?

OpenFold is not just another clone; it is a meticulously engineered, high-fidelity PyTorch reproduction of DeepMind's AlphaFold 2, designed from the ground up to be trainable, memo…

这个 GitHub 项目在“OpenFold vs AlphaFold 2 memory usage comparison”上为什么会引发关注?

OpenFold's core achievement is its faithful yet optimized reproduction of AlphaFold 2's complex architecture. The original model uses a two-track architecture: an Evoformer that processes multiple sequence alignments (MS…

从“How to fine-tune OpenFold on custom protein datasets”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 3356,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。