ESM-2与ESMFold:Meta开源蛋白质AI重塑药物发现格局

GitHub May 2026
⭐ 4075
来源:GitHub归档:May 2026
Meta FAIR团队发布ESM-2与ESMFold系列模型,基于Transformer架构、在2.5亿条序列上预训练的蛋白质语言模型,以开源形式实现了零样本突变效应预测与结构预测的SOTA水平,大幅降低了AI驱动蛋白质工程的门槛。

Meta FAIR的进化尺度建模(ESM)项目代表了计算生物学领域的范式转变。与传统基于物理或同源建模的方法不同,ESM将蛋白质序列视为一种语言,直接从数百万条天然序列中学习进化与功能模式。旗舰模型ESM-2拥有高达30亿参数,在零样本突变效应预测上表现卓越——无需任何任务特定微调,即可预测单个氨基酸改变如何影响蛋白质功能。基于ESM-2构建的ESMFold,在预测3D蛋白质结构时精度与AlphaFold2相当,但推理速度提升10-100倍,非常适合高通量筛选场景。这些模型在GitHub上完全开源,已获得超过4000颗星,并持续更新。ESM系列通过掩码语言建模目标,迫使模型学习蛋白质折叠与功能的“语法”,其零样本预测机制利用进化约束,在41个深度突变扫描实验中达到0.4-0.7的Spearman相关系数,媲美监督方法。Recursion Pharmaceuticals和Ginkgo Bioworks等企业已将其应用于靶点识别与酶工程,显著提升效率。

技术深度解析

ESM系列基于Transformer架构,核心采用BERT推广的掩码语言建模(MLM)目标。核心思路:给定一条蛋白质序列,随机掩码15%的氨基酸,训练模型预测被掩码的token。这迫使模型学习上下文依赖关系——本质上是蛋白质折叠与功能的“语法”。

架构变体:
- ESM-1v(2021年):6.5亿参数,单序列输入,针对零样本突变效应预测优化。采用独特的“掩码边际”方法:对每个突变位置,模型计算突变型与野生型氨基酸的对数似然比,并在多个掩码位置上取平均。
- ESM-2(2022年):参数规模从800万到30亿不等。引入旋转位置编码(RoPE)和SwiGLU激活函数,提升了训练稳定性和序列长度处理能力。30亿参数模型使用36个Transformer层和40个注意力头。
- ESMFold(2022年):端到端结构预测模型,用单次ESM-2前向传播替代昂贵的多序列比对(MSA)步骤。采用48层Transformer,配备几何注意力机制,直接预测主链坐标。

训练数据: 所有模型均在UniRef50数据库上预训练,该数据库包含约2.5亿条蛋白质序列,按50%序列同一性聚类。数据量比AlphaFold使用的序列数据库大数个数量级(AlphaFold依赖约20亿条序列的MSA,但需要多次遍历)。

零样本突变预测机制: 关键创新在于ESM-1v和ESM-2无需任何实验数据的监督训练即可预测突变的适应性效应。模型学习进化约束:高度保守的位置(突变概率低)很可能在功能上重要。预测得分为对数似然比:

\[ \Delta \log p = \log p(\text{突变型} | \text{上下文}) - \log p(\text{野生型} | \text{上下文}) \]

负值表示有害突变。该方法在深度突变扫描实验中达到0.4-0.7的Spearman相关系数,与监督方法相媲美。

性能基准:

| 模型 | 参数规模 | 突变预测(Spearman r) | 结构预测(LDDT) | 每条序列推理时间 |
|---|---|---|---|---|
| ESM-1v | 6.5亿 | 0.45(41个DMS实验平均) | 不适用 | ~0.1秒 |
| ESM-2(30亿) | 30亿 | 0.51 | 不适用 | ~0.5秒 |
| ESMFold | 30亿(主干) | 不适用 | 0.82(CASP14上) | ~0.2秒 |
| AlphaFold2 | ~9300万(Evoformer) | 不适用 | 0.88(CASP14上) | ~10-30秒 |
| Tranception | 7亿 | 0.43 | 不适用 | ~1秒 |

数据要点: ESM-2在纯序列模型中实现了最高的零样本突变预测精度,而ESMFold以约6%的结构精度换取相比AlphaFold2 50-100倍的速度提升。这一速度优势对高通量应用(如筛选数百万个变体)至关重要。

开源实现: 官方GitHub仓库(facebookresearch/esm)提供:
- 所有ESM-1v和ESM-2规模的预训练模型权重
- 用于突变评分和结构预测的推理脚本
- 下游任务(如稳定性预测、结合亲和力)的微调示例
- 与PyTorch和Hugging Face Transformers的集成

该仓库拥有4,075颗星,并得到积极维护,最新更新增加了对ESM-3(一个980亿参数的多模态模型,结合序列、结构和功能)的支持。

关键玩家与案例研究

Meta FAIR(基础AI研究): 主要开发者,由Alexander Rives及其同事领导。Meta的策略是开源基础模型,将ESM确立为蛋白质语言建模的标准,类似于他们在LLaMA上对NLP所做的布局。这使Meta成为生物AI生态系统的关键基础设施提供商。

竞争方案:

| 方案 | 类型 | 关键优势 | 局限性 |
|---|---|---|---|
| ESM-2 / ESMFold | 纯序列PLM | 速度快、零样本突变预测 | 结构精度低于AlphaFold |
| AlphaFold2 / AlphaFold3 | MSA + 结构模块 | 最高结构精度(0.88+ LDDT) | 速度慢、需生成MSA、非零样本 |
| Tranception / TranceptEVE | 自回归 + 进化信息 | 结合检索的突变预测表现良好 | 推理速度更慢、内存占用更大 |
| ProtGPT2 / ProGen | 生成式PLM | 可生成全新序列 | 对现有蛋白质的预测精度较低 |

案例研究:Recursion Pharmaceuticals的药物发现
Recursion在其表型筛选流程中使用ESM-2对数千个遗传变异的影响进行评分。通过将ESM-2的零样本预测与细胞成像数据相结合,他们在靶点识别中将假阳性率降低了30%。

案例研究:Ginkgo Bioworks的酶工程
Ginkgo使用ESMFold快速预测工程化酶变体的结构。

更多来自 GitHub

CrowdSec:开源安全革命,让每个人成为网络哨兵CrowdSec 已成为网络安全领域的一股强大力量,在 GitHub 上收获了超过 14,000 颗星,社区规模迅速壮大。与传统、孤岛式的安全工具不同,CrowdSec 采用参与式模型:每个安装实例都充当传感器,检测恶意行为并将情报共享给整Claude Desktop中文补丁:一场社区驱动的本地化革命由开发者javaht创建的javaht/claude-desktop-zh-cn仓库,提供了一款补丁工具,可将Claude Desktop界面翻译为简体中文,支持macOS和Windows。该项目的爆炸式增长——获得4127颗星,日增975Grafana 75K Stars:开源可观测性平台为何统治云原生监控Grafana 已从简单的仪表盘工具进化为云原生可观测性的中枢神经系统。凭借 GitHub 上 75,173 颗星,它如今可连接超过 100 种数据源,包括 Prometheus、Loki、Elasticsearch、InfluxDB 和 查看来源专题页GitHub 已收录 3156 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

CrowdSec:开源安全革命,让每个人成为网络哨兵CrowdSec 正在重写网络防御规则——它将每一位用户变成传感器,通过开源社区驱动的方式,聚合数千参与者的实时威胁数据,构建全球 IP 信誉数据库。相比 Fail2ban 等传统工具,它更智能、更协作,堪称安全领域的“群体智慧”典范。Claude Desktop中文补丁:一场社区驱动的本地化革命一个名为javaht/claude-desktop-zh-cn的GitHub项目在一天内飙升至超过4100颗星,为Anthropic的Claude Desktop客户端提供了非侵入式中文补丁。这标志着中文世界对本地化AI界面的巨大且未被满足Grafana 75K Stars:开源可观测性平台为何统治云原生监控开源可观测性平台 Grafana 已突破 75,000 个 GitHub Star,巩固了其在指标、日志和链路可视化领域的标准地位。本文深入剖析其插件架构、Go/React 技术栈以及社区驱动增长如何重塑 IT 监控格局。DevSidecar:重塑中国开发者网络访问的开源利器DevSidecar,一款开源本地代理工具,凭借解决中国开发者长期以来的痛点——稳定访问 GitHub、Stack Overflow 等海外技术资源——已飙升至 22,928 个 GitHub Star。本文深入剖析其技术架构、竞争格局,以

常见问题

GitHub 热点“ESM-2 and ESMFold: Meta's Open-Source Protein AI Reshapes Drug Discovery”主要讲了什么?

The Evolutionary Scale Modeling (ESM) project from Meta FAIR represents a paradigm shift in computational biology. Unlike traditional physics-based or homology modeling, ESM treats…

这个 GitHub 项目在“ESM-2 zero-shot mutation prediction accuracy vs deep mutational scanning”上为什么会引发关注?

The ESM family is built on the transformer architecture, specifically the masked language modeling (MLM) objective popularized by BERT. The core idea: given a protein sequence, randomly mask 15% of amino acids, and train…

从“ESMFold inference speed comparison with AlphaFold2 on consumer GPU”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 4075,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。