AlphaFold 2:DeepMind的开源蛋白质模型如何重写生物学

GitHub April 2026
⭐ 14506
来源:GitHub归档:April 2026
DeepMind的AlphaFold 2代表了结构生物学的一次范式转移,它用AI解决了一个长达50年的重大挑战。通过将模型开源,该团队已掀起科学发现的浪潮,但显著的局限性与竞争压力依然存在。

2021年7月,DeepMind开源了AlphaFold 2的代码和模型权重。这是一个深度学习系统,能够以原子级精度从氨基酸序列预测蛋白质的三维结构。此举实质上解决了困扰学界数十年的“蛋白质折叠问题”——这是生物学的一个核心挑战,对于理解疾病机制和设计新型疗法具有深远意义。此次发布不仅是一项技术成就,更是一次战略性的能力民主化,将此前仅限于拥有强大计算资源的精英实验室的能力,普及开来。该系统在蛋白质结构预测关键评估(CASP)竞赛中得到验证的性能极具变革性,甚至被描述为对X射线晶体学等传统实验方法的“颠覆”。

技术深度解析

AlphaFold 2的架构是将现代深度学习应用于复杂科学领域的典范。其核心是一个端到端的可微分模型,它输入多序列比对(MSA)和一组预测的残基-残基距离(模板),并输出完整的三维原子结构。整个过程通过几个创新模块展开。

首先,Evoformer模块(一种类Transformer架构)处理MSA和成对特征。与在序列上运行的标准Transformer不同,Evoformer同时采用了行方向(序列)和列方向(残基位置)的注意力机制。这使得它能够推理跨物种的进化关系(体现在MSA的列中)以及目标蛋白质中每个残基的特定上下文(体现在行中)。其输出是一组经过精炼的表征,编码了进化和结构两方面的约束。

这些表征随后被传递给结构模块。这是一个循环神经网络,迭代地优化三维主链结构。关键在于,它使用不变点注意力(IPA)来表示蛋白质结构。IPA是一种几何感知的注意力机制,直接在三维空间中的旋转和平移上操作。这确保了模型的预测在物理上是合理的,并且独立于任意的坐标框架。整个流程通过结合帧对齐点误差(FAPE,一种局部结构精度的度量)以及预测距离图和扭转角的辅助损失函数,进行端到端训练。

该模型对由HHblits和JackHMMER等工具生成的深度MSA的依赖,既是优势也是局限。对于高度保守的蛋白质,进化信号强,能实现高精度预测。而对于进化亲属很少的孤儿蛋白质,性能可能会下降。计算成本相当可观:单个预测可能需要在多个GPU上运行数小时,不过公开的AlphaFold Colab笔记本AlphaFold蛋白质结构数据库已极大地降低了使用门槛。

| 模型/方法 | 关键架构创新 | CASP14 GDT_TS(全局) | 典型运行时间(GPU小时) |
|---|---|---|---|
| AlphaFold 2 | Evoformer + 不变点注意力 | ~92.4 | 10-20 (V100) |
| AlphaFold 1 (2020) | 距离几何 + 残差网络 | ~87.0 | 100+ (TPUv3) |
| RoseTTAFold (Baker Lab) | 三轨网络(1D, 2D, 3D) | ~85.0 | 5-10 (V100) |
| 传统方法(2020年前) | 基于物理的模拟,同源建模 | < 60.0 | 数千(CPU) |

数据要点: AlphaFold 2在CASP14上约92.4的GDT_TS分数,标志着一个质变,进入了实验精度领域(通常认为约90 GDT_TS即达到)。转向采用几何注意力的端到端学习架构(AlphaFold 2)相比其前代实现了约5个点的精度提升,并将运行时间缩短了一个数量级,从而具备了实用性。

关键参与者与案例研究

AlphaFold 2的开源创造了一个新的竞争格局。DeepMind(谷歌)仍然是核心参与者,它已从一个纯粹的研究实体转变为提供基础生物学基础设施的供应商。其战略利用了谷歌的云和计算能力,AlphaFold数据库就托管在谷歌云上。由Demis Hassabis和John Jumper领导的团队,一直专注于扩展数据库,并探索下一代挑战,如蛋白质-蛋白质相互作用和配体结合。

最直接的回应来自华盛顿大学David Baker实验室的RoseTTAFold。它在AlphaFold 2发布后不久推出,采用了一个概念上优雅的“三轨”神经网络,同时推理蛋白质序列(1D)、残基间距离(2D)和三维坐标。虽然平均精度略低于AlphaFold 2,但其速度显著更快,计算效率更高,使得更广泛的学术实验室能够使用。其代码也是完全开源的,在GitHub上(`RosettaCommons/RoseTTAFold`)培育了一个活跃的社区。

这催生了一系列专业工具。ColabFold(`sokrypton/ColabFold`)是一个GitHub项目,它将MMseqs2的快速同源搜索与AlphaFold 2或RoseTTAFold相结合,已成为没有专用计算集群的研究人员的实际标准,通过Google Colab可在几分钟内提供预测。其受欢迎程度(超过1万GitHub星标)凸显了对易用界面的需求。

在商业前沿,DeepMind分拆出来的Isomorphic Labs,明确承担着利用AlphaFold技术进行药物发现的任务。像Insilico MedicineRecursion Pharmaceuticals这样的公司已将AlphaFold整合到其AI驱动的药物发现流程中,以快速生成假定的蛋白质靶点并理解疾病机制。相反,传统的结构生物学

更多来自 GitHub

TuriX-CUA:有望实现桌面自动化民主化的开源智能体框架TuriX-CUA代表了AI智能体实际应用领域的一项关键进展,尤其针对图形用户界面自动化这一长期挑战。与传统需要大量手动脚本编写或录制回放的机器人流程自动化工具不同,TuriX-CUA定位为智能中介。它能解析高级自然语言指令——例如“用上周ColabFold 让蛋白质折叠平民化:开源如何颠覆结构生物学ColabFold 代表了计算生物学领域的一次范式转移,它将蛋白质结构预测从一项资源密集型的专业工作,转变为人人可用的工具。该项目由 Sergey Ovchinnikov、Milot Mirdita 等研究人员牵头,其本身并非一个新模型,而RoseTTAFold:开源蛋白质折叠革命,挑战AlphaFold霸主地位RoseTTAFold的发布是计算生物学领域的一个关键时刻,它打破了高精度蛋白质结构预测领域由专有系统垄断的局面。尽管DeepMind的AlphaFold2在2020年CASP14竞赛中的表现令科学界震惊,但其代码和完整模型权重在近一年内都查看来源专题页GitHub 已收录 928 篇文章

时间归档

April 20262080 篇已发布文章

延伸阅读

RoseTTAFold:开源蛋白质折叠革命,挑战AlphaFold霸主地位在蛋白质结构预测这一关键领域,RoseTTAFold已成为DeepMind AlphaFold2的强大挑战者。由华盛顿大学蛋白质设计研究所开发,这套完全开源的系统为全球研究者提供了便捷的蛋白质三维结构建模工具,正加速生物学与医学领域的突破性DeepMind MeltingPot重塑多智能体强化学习基准:从个体博弈走向社会智能人工智能的竞技场正从单打独斗转向复杂群体互动。谷歌DeepMind推出革命性评估套件MeltingPot,首次将合作博弈与社会动态纳入标准化测试框架,为多智能体系统树立全新衡量标尺。DeepMind PySC2如何将《星际争霸II》铸成AI的终极试炼场DeepMind推出的PySC2开源工具,将暴雪旗下的热门电竞《星际争霸II》转化为人工智能研究的权威基准测试平台。这一环境以前所未有的战略复杂性为研究者提供了沙盒实验室,催生的强化学习突破已远远超越虚拟战场。TuriX-CUA:有望实现桌面自动化民主化的开源智能体框架TuriX-CUA项目正成为构建通用计算机操作AI智能体赛道中的重要开源竞争者。它通过将大语言模型与直接GUI交互解耦,提供了一种通过简单指令自动化复杂桌面工作流的新范式,有望显著降低高级自动化技术的应用门槛。

常见问题

GitHub 热点“AlphaFold 2: How DeepMind's Open-Source Protein Model Is Rewriting Biology”主要讲了什么?

In July 2021, DeepMind open-sourced the code and model weights for AlphaFold 2, a deep learning system that predicts protein 3D structures from amino acid sequences with atomic-lev…

这个 GitHub 项目在“How to install AlphaFold 2 locally with Docker”上为什么会引发关注?

AlphaFold 2's architecture is a masterclass in applying modern deep learning to a complex scientific domain. At its core, it is an end-to-end differentiable model that ingests a multiple sequence alignment (MSA) and a se…

从“AlphaFold 2 vs RoseTTAFold accuracy benchmark comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 14506,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。