AlphaFold 2:DeepMind的开源蛋白质模型如何重写生物学

GitHub April 2026
⭐ 14506
来源:GitHub归档:April 2026
DeepMind的AlphaFold 2代表了结构生物学的一次范式转移,它用AI解决了一个长达50年的重大挑战。通过将模型开源,该团队已掀起科学发现的浪潮,但显著的局限性与竞争压力依然存在。

2021年7月,DeepMind开源了AlphaFold 2的代码和模型权重。这是一个深度学习系统,能够以原子级精度从氨基酸序列预测蛋白质的三维结构。此举实质上解决了困扰学界数十年的“蛋白质折叠问题”——这是生物学的一个核心挑战,对于理解疾病机制和设计新型疗法具有深远意义。此次发布不仅是一项技术成就,更是一次战略性的能力民主化,将此前仅限于拥有强大计算资源的精英实验室的能力,普及开来。该系统在蛋白质结构预测关键评估(CASP)竞赛中得到验证的性能极具变革性,甚至被描述为对X射线晶体学等传统实验方法的“颠覆”。

技术深度解析

AlphaFold 2的架构是将现代深度学习应用于复杂科学领域的典范。其核心是一个端到端的可微分模型,它输入多序列比对(MSA)和一组预测的残基-残基距离(模板),并输出完整的三维原子结构。整个过程通过几个创新模块展开。

首先,Evoformer模块(一种类Transformer架构)处理MSA和成对特征。与在序列上运行的标准Transformer不同,Evoformer同时采用了行方向(序列)和列方向(残基位置)的注意力机制。这使得它能够推理跨物种的进化关系(体现在MSA的列中)以及目标蛋白质中每个残基的特定上下文(体现在行中)。其输出是一组经过精炼的表征,编码了进化和结构两方面的约束。

这些表征随后被传递给结构模块。这是一个循环神经网络,迭代地优化三维主链结构。关键在于,它使用不变点注意力(IPA)来表示蛋白质结构。IPA是一种几何感知的注意力机制,直接在三维空间中的旋转和平移上操作。这确保了模型的预测在物理上是合理的,并且独立于任意的坐标框架。整个流程通过结合帧对齐点误差(FAPE,一种局部结构精度的度量)以及预测距离图和扭转角的辅助损失函数,进行端到端训练。

该模型对由HHblits和JackHMMER等工具生成的深度MSA的依赖,既是优势也是局限。对于高度保守的蛋白质,进化信号强,能实现高精度预测。而对于进化亲属很少的孤儿蛋白质,性能可能会下降。计算成本相当可观:单个预测可能需要在多个GPU上运行数小时,不过公开的AlphaFold Colab笔记本AlphaFold蛋白质结构数据库已极大地降低了使用门槛。

| 模型/方法 | 关键架构创新 | CASP14 GDT_TS(全局) | 典型运行时间(GPU小时) |
|---|---|---|---|
| AlphaFold 2 | Evoformer + 不变点注意力 | ~92.4 | 10-20 (V100) |
| AlphaFold 1 (2020) | 距离几何 + 残差网络 | ~87.0 | 100+ (TPUv3) |
| RoseTTAFold (Baker Lab) | 三轨网络(1D, 2D, 3D) | ~85.0 | 5-10 (V100) |
| 传统方法(2020年前) | 基于物理的模拟,同源建模 | < 60.0 | 数千(CPU) |

数据要点: AlphaFold 2在CASP14上约92.4的GDT_TS分数,标志着一个质变,进入了实验精度领域(通常认为约90 GDT_TS即达到)。转向采用几何注意力的端到端学习架构(AlphaFold 2)相比其前代实现了约5个点的精度提升,并将运行时间缩短了一个数量级,从而具备了实用性。

关键参与者与案例研究

AlphaFold 2的开源创造了一个新的竞争格局。DeepMind(谷歌)仍然是核心参与者,它已从一个纯粹的研究实体转变为提供基础生物学基础设施的供应商。其战略利用了谷歌的云和计算能力,AlphaFold数据库就托管在谷歌云上。由Demis Hassabis和John Jumper领导的团队,一直专注于扩展数据库,并探索下一代挑战,如蛋白质-蛋白质相互作用和配体结合。

最直接的回应来自华盛顿大学David Baker实验室的RoseTTAFold。它在AlphaFold 2发布后不久推出,采用了一个概念上优雅的“三轨”神经网络,同时推理蛋白质序列(1D)、残基间距离(2D)和三维坐标。虽然平均精度略低于AlphaFold 2,但其速度显著更快,计算效率更高,使得更广泛的学术实验室能够使用。其代码也是完全开源的,在GitHub上(`RosettaCommons/RoseTTAFold`)培育了一个活跃的社区。

这催生了一系列专业工具。ColabFold(`sokrypton/ColabFold`)是一个GitHub项目,它将MMseqs2的快速同源搜索与AlphaFold 2或RoseTTAFold相结合,已成为没有专用计算集群的研究人员的实际标准,通过Google Colab可在几分钟内提供预测。其受欢迎程度(超过1万GitHub星标)凸显了对易用界面的需求。

在商业前沿,DeepMind分拆出来的Isomorphic Labs,明确承担着利用AlphaFold技术进行药物发现的任务。像Insilico MedicineRecursion Pharmaceuticals这样的公司已将AlphaFold整合到其AI驱动的药物发现流程中,以快速生成假定的蛋白质靶点并理解疾病机制。相反,传统的结构生物学

更多来自 GitHub

Vicinae:一款原生桌面启动器,以隐私与速度挑战 Alfred 和 SpotlightVicinae 在桌面启动器领域异军突起,成为备受瞩目的竞争者。这一品类长期以来由 macOS 的 Spotlight 和付费应用 Alfred 主导。该项目托管于 GitHub 的 `vicinaehq/vicinae`,短时间内已收获近Open-Slide:重新定义办公自动化的智能体原生幻灯片工具Open-Slide 并非又一款演示文稿库,而是一个专为 AI 智能体设计的框架。与需要人工介入的传统幻灯片 API 不同,Open-Slide 将幻灯片创建过程拆解为一组可组合、对智能体友好的函数。该框架自动处理布局、文本放置、图片插入与Bitcoin Core:万亿美元网络背后的隐形引擎Bitcoin Core 作为比特币网络的原生客户端和参考实现,堪称现存经受考验最久的去中心化基础设施。由全球志愿者贡献者群体开发与维护,该项目是中本聪白皮书的权威化身。其架构——基于工作量证明(PoW)共识机制、未花费交易输出(UTXO)查看来源专题页GitHub 已收录 2372 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

OpenFold:开源AlphaFold 2复刻版,或将重塑药物研发格局一款完全开源、可训练的PyTorch版DeepMind AlphaFold 2复刻项目正式问世。OpenFold主打内存效率与GPU友好性,有望降低全球实验室进行尖端蛋白质结构预测的门槛。Genie 从头设计蛋白质:AI 闯入未知生物空间一款名为 Genie 的扩散模型开源复现版,正大幅降低从头设计全新蛋白质骨架的门槛。通过等变扩散定向残基云,该模型有望加速酶设计、抗体工程与合成生物学的发展。MuJoCo:DeepMind的物理模拟器,如何驱动下一代机器人AIDeepMind旗下的MuJoCo已成为机器人与强化学习研究领域事实上的标准物理引擎。凭借13,239颗GitHub星标与持续攀升的日活跃度,这款开源模拟器正在重塑AI学习与物理世界交互的方式。AlphaGeometry:DeepMind 的 AI 攻克奥赛级几何证明,金牌水平触手可及DeepMind 的 AlphaGeometry 在国际数学奥林匹克几何题上实现了接近金牌选手的表现。它融合了神经语言模型与符号推演引擎,无需任何人类示范即可生成可读的证明过程,标志着 AI 在形式化、结构化推理能力上的重大飞跃。

常见问题

GitHub 热点“AlphaFold 2: How DeepMind's Open-Source Protein Model Is Rewriting Biology”主要讲了什么?

In July 2021, DeepMind open-sourced the code and model weights for AlphaFold 2, a deep learning system that predicts protein 3D structures from amino acid sequences with atomic-lev…

这个 GitHub 项目在“How to install AlphaFold 2 locally with Docker”上为什么会引发关注?

AlphaFold 2's architecture is a masterclass in applying modern deep learning to a complex scientific domain. At its core, it is an end-to-end differentiable model that ingests a multiple sequence alignment (MSA) and a se…

从“AlphaFold 2 vs RoseTTAFold accuracy benchmark comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 14506,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。