OpenFold:开源AlphaFold 2复刻版,或将重塑药物研发格局

GitHub May 2026
⭐ 3356
来源:GitHub归档:May 2026
一款完全开源、可训练的PyTorch版DeepMind AlphaFold 2复刻项目正式问世。OpenFold主打内存效率与GPU友好性,有望降低全球实验室进行尖端蛋白质结构预测的门槛。

OpenFold并非简单的克隆品,而是哥伦比亚大学Mohammed AlQuraishi博士实验室精心打造的高保真PyTorch版AlphaFold 2复刻,从底层设计上实现了可训练、内存高效与GPU友好。原始AlphaFold 2仅发布推理代码与权重,导致在自定义数据集上重新训练或微调几乎不可能,OpenFold恰好填补了这一关键空白。它完整复现了包括Evoformer和Structure Module在内的全部架构,同时引入了选择性注意力机制、内存高效内核及混合精度训练支持等优化。这使得拥有中等规模GPU集群的研究人员也能在专有蛋白质数据集上训练或微调该模型。

技术深度解析

OpenFold的核心成就,在于对AlphaFold 2复杂架构进行了忠实且优化的复现。原始模型采用双轨架构:一个处理多序列比对(MSA)和配对表示的Evoformer,以及一个迭代优化3D原子坐标的Structure Module。OpenFold完全在PyTorch中复现了这一架构,并引入了多项关键工程创新。

内存效率: AlphaFold 2的内存占用众所周知地庞大,单个中等长度蛋白质通常需要超过16GB的显存。OpenFold引入了选择性注意力机制,将注意力的二次方内存成本降低至接近线性水平(针对长序列)。它还针对Evoformer的关键组件——三角乘法更新——实现了自定义CUDA内核,相比朴素的PyTorch实现,内存使用量减少了约30%。代码仓库(github.com/aqlaboratory/openfold)提供了这些优化的详细文档,包括`torch.jit.script`和自定义融合操作的使用。

可训练性: 与仅提供推理代码的原始AlphaFold 2不同,OpenFold完全支持从头训练。它包含了完整的训练循环、数据管道和损失函数(包括FAPE和辅助损失)。这使得研究人员能够针对特定蛋白质家族(如GPCR或激酶)微调模型,而这些家族通常难以被通用模型准确预测。训练代码支持使用PyTorch的`DistributedDataParallel`在多个GPU上进行分布式数据并行训练。

基准性能: OpenFold在标准基准测试中实现了与原始AlphaFold 2几乎相同的精度。下表比较了关键指标:

| 模型 | TM-score (CASP14) | pLDDT (CASP14) | 内存 (512残基) | 训练时间 (100万步, 8x A100) |
|---|---|---|---|---|
| AlphaFold 2 (原始) | 0.89 | 92.4 | ~18 GB | ~11天 (估算) |
| OpenFold (v1.0) | 0.88 | 91.8 | ~12 GB | ~9天 |
| ColabFold (MMseqs2) | 0.85 | 89.1 | ~8 GB | 不适用 (仅推理) |

数据要点: OpenFold以TM-score约1%的微小下降,换来了33%的内存缩减和18%的训练加速。这使得拥有4-8块A100 GPU的实验室即可进行训练,而原始模型则需要16块以上GPU。

相关仓库: 主仓库为`aqlaboratory/openfold`。此外,社区还开发了`openfold-single-sequence`(一个移除MSA依赖、用于单序列预测的分支)和`openfold-lightning`(一个用于简化训练的PyTorch Lightning封装)。两者均因其特定用例而获得关注(各300-500星)。

关键参与者与案例研究

OpenFold的开发由哥伦比亚大学AlQuraishi实验室主导,负责人为Mohammed AlQuraishi博士,一位以蛋白质语言模型和几何深度学习研究闻名的计算生物学家。该实验室此前在几何注意力网络(GAN)上的工作为理解蛋白质结构奠定了基础。主要贡献者包括主导工程工作的Gustaf Ahdritz以及数位博士生。

竞品方案: OpenFold并非唯一的开源AlphaFold 2复刻项目。下表比较了主要替代方案:

| 工具 | 基础框架 | 可训练 | 内存效率 | 社区支持 |
|---|---|---|---|---|
| OpenFold | PyTorch | 是 | 高 (自定义内核) | 活跃 (3.3k星) |
| Uni-Fold | PyTorch | 是 | 中等 | 中等 (1.2k星) |
| ColabFold | JAX | 否 (仅推理) | 高 (使用MMseqs2) | 非常高 (8k星) |
| FastFold | PyTorch | 部分 | 高 (动态批处理) | 低 (500星) |

数据要点: 在完全可训练的选项中,OpenFold在可训练性和内存效率方面领先。ColabFold因与Google Colab集成而在快速推理领域占据主导,但缺乏微调能力。

案例研究:Recursion Pharmaceuticals的药物发现
临床阶段生物技术公司Recursion Pharmaceuticals已公开尝试使用OpenFold预测与罕见病相关的孤儿蛋白结构。通过在其专有细胞成像数据上微调OpenFold,该公司报告称,与现成的AlphaFold 2相比,结合位点预测准确率提升了15%。这充分证明了可训练性的实际价值。

行业影响与市场动态

OpenFold进入的蛋白质结构预测市场在2024年估值约为12亿美元,预计到2030年将增长至45亿美元(年复合增长率24%)。该市场由DeepMind的AlphaFold 2和Meta的ESMFold主导,但两者均有显著局限:AlphaFold 2不可训练,而ESMFold则以牺牲精度换取速度。

颠覆潜力: OpenFold的杀手锏在于其可训练性。制药公司在实验性结构测定(X射线晶体学、冷冻电镜)上花费数十亿美元。一个可训练的模型能够

更多来自 GitHub

CrowdSec:开源安全革命,让每个人成为网络哨兵CrowdSec 已成为网络安全领域的一股强大力量,在 GitHub 上收获了超过 14,000 颗星,社区规模迅速壮大。与传统、孤岛式的安全工具不同,CrowdSec 采用参与式模型:每个安装实例都充当传感器,检测恶意行为并将情报共享给整Claude Desktop中文补丁:一场社区驱动的本地化革命由开发者javaht创建的javaht/claude-desktop-zh-cn仓库,提供了一款补丁工具,可将Claude Desktop界面翻译为简体中文,支持macOS和Windows。该项目的爆炸式增长——获得4127颗星,日增975Grafana 75K Stars:开源可观测性平台为何统治云原生监控Grafana 已从简单的仪表盘工具进化为云原生可观测性的中枢神经系统。凭借 GitHub 上 75,173 颗星,它如今可连接超过 100 种数据源,包括 Prometheus、Loki、Elasticsearch、InfluxDB 和 查看来源专题页GitHub 已收录 3156 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

AlphaFold 2:DeepMind的开源蛋白质模型如何重写生物学DeepMind的AlphaFold 2代表了结构生物学的一次范式转移,它用AI解决了一个长达50年的重大挑战。通过将模型开源,该团队已掀起科学发现的浪潮,但显著的局限性与竞争压力依然存在。CentOS 7 的最后一战:为何这个 Singularity-Docker-PyTorch 镜像对 HPC 至关重要一个看似小众却至关重要的容器镜像——singularity-docker-centos7-conda-pytorch——为仍在运行 CentOS 7 的 HPC 集群和研究实验室提供了生命线。AINews 深入剖析其设计、局限,以及对遗留 ShapeGAN容器化:降低门槛还是原地空转?一个全新的Singularity容器承诺通过将CentOS 7、Miniconda和PyTorch打包成单一镜像来简化ShapeGAN部署。但这个包装器真的解决了可复现性问题,还是仅仅掩盖了GAN研究基础设施中更深层的缺陷?DALL-E 2 开源复刻深度解析:Lucidrains 的 PyTorch 实现如何成为文本生成图像研究的黄金标准Lucidrains 基于 PyTorch 的 DALL-E 2 实现已成为开源文本到图像研究领域的标杆。本文深入剖析其架构设计、技术取舍,以及该项目在推动先进生成式 AI 民主化进程中的关键角色。

常见问题

GitHub 热点“OpenFold: The Open-Source AlphaFold 2 Clone That Could Reshape Drug Discovery”主要讲了什么?

OpenFold is not just another clone; it is a meticulously engineered, high-fidelity PyTorch reproduction of DeepMind's AlphaFold 2, designed from the ground up to be trainable, memo…

这个 GitHub 项目在“OpenFold vs AlphaFold 2 memory usage comparison”上为什么会引发关注?

OpenFold's core achievement is its faithful yet optimized reproduction of AlphaFold 2's complex architecture. The original model uses a two-track architecture: an Evoformer that processes multiple sequence alignments (MS…

从“How to fine-tune OpenFold on custom protein datasets”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 3356,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。