ESM-2与ESMFold：Meta开源蛋白质AI重塑药物发现格局

2026年5月15日 18:38 AINews GitHub May 2026

⭐ 4075

来源：GitHub 归档：May 2026

Meta FAIR团队发布ESM-2与ESMFold系列模型，基于Transformer架构、在2.5亿条序列上预训练的蛋白质语言模型，以开源形式实现了零样本突变效应预测与结构预测的SOTA水平，大幅降低了AI驱动蛋白质工程的门槛。

Meta FAIR的进化尺度建模（ESM）项目代表了计算生物学领域的范式转变。与传统基于物理或同源建模的方法不同，ESM将蛋白质序列视为一种语言，直接从数百万条天然序列中学习进化与功能模式。旗舰模型ESM-2拥有高达30亿参数，在零样本突变效应预测上表现卓越——无需任何任务特定微调，即可预测单个氨基酸改变如何影响蛋白质功能。基于ESM-2构建的ESMFold，在预测3D蛋白质结构时精度与AlphaFold2相当，但推理速度提升10-100倍，非常适合高通量筛选场景。这些模型在GitHub上完全开源，已获得超过4000颗星，并持续更新。ESM系列通过掩码语言建模目标，迫使模型学习蛋白质折叠与功能的“语法”，其零样本预测机制利用进化约束，在41个深度突变扫描实验中达到0.4-0.7的Spearman相关系数，媲美监督方法。Recursion Pharmaceuticals和Ginkgo Bioworks等企业已将其应用于靶点识别与酶工程，显著提升效率。

技术深度解析

ESM系列基于Transformer架构，核心采用BERT推广的掩码语言建模（MLM）目标。核心思路：给定一条蛋白质序列，随机掩码15%的氨基酸，训练模型预测被掩码的token。这迫使模型学习上下文依赖关系——本质上是蛋白质折叠与功能的“语法”。

架构变体：
- ESM-1v（2021年）：6.5亿参数，单序列输入，针对零样本突变效应预测优化。采用独特的“掩码边际”方法：对每个突变位置，模型计算突变型与野生型氨基酸的对数似然比，并在多个掩码位置上取平均。
- ESM-2（2022年）：参数规模从800万到30亿不等。引入旋转位置编码（RoPE）和SwiGLU激活函数，提升了训练稳定性和序列长度处理能力。30亿参数模型使用36个Transformer层和40个注意力头。
- ESMFold（2022年）：端到端结构预测模型，用单次ESM-2前向传播替代昂贵的多序列比对（MSA）步骤。采用48层Transformer，配备几何注意力机制，直接预测主链坐标。

训练数据： 所有模型均在UniRef50数据库上预训练，该数据库包含约2.5亿条蛋白质序列，按50%序列同一性聚类。数据量比AlphaFold使用的序列数据库大数个数量级（AlphaFold依赖约20亿条序列的MSA，但需要多次遍历）。

零样本突变预测机制： 关键创新在于ESM-1v和ESM-2无需任何实验数据的监督训练即可预测突变的适应性效应。模型学习进化约束：高度保守的位置（突变概率低）很可能在功能上重要。预测得分为对数似然比：

\[ \Delta \log p = \log p(\text{突变型} | \text{上下文}) - \log p(\text{野生型} | \text{上下文}) \]

负值表示有害突变。该方法在深度突变扫描实验中达到0.4-0.7的Spearman相关系数，与监督方法相媲美。

性能基准：

| 模型 | 参数规模 | 突变预测（Spearman r） | 结构预测（LDDT） | 每条序列推理时间 |
|---|---|---|---|---|
| ESM-1v | 6.5亿 | 0.45（41个DMS实验平均） | 不适用 | ~0.1秒 |
| ESM-2（30亿） | 30亿 | 0.51 | 不适用 | ~0.5秒 |
| ESMFold | 30亿（主干） | 不适用 | 0.82（CASP14上） | ~0.2秒 |
| AlphaFold2 | ~9300万（Evoformer） | 不适用 | 0.88（CASP14上） | ~10-30秒 |
| Tranception | 7亿 | 0.43 | 不适用 | ~1秒 |

数据要点： ESM-2在纯序列模型中实现了最高的零样本突变预测精度，而ESMFold以约6%的结构精度换取相比AlphaFold2 50-100倍的速度提升。这一速度优势对高通量应用（如筛选数百万个变体）至关重要。

开源实现： 官方GitHub仓库（facebookresearch/esm）提供：
- 所有ESM-1v和ESM-2规模的预训练模型权重
- 用于突变评分和结构预测的推理脚本
- 下游任务（如稳定性预测、结合亲和力）的微调示例
- 与PyTorch和Hugging Face Transformers的集成

该仓库拥有4,075颗星，并得到积极维护，最新更新增加了对ESM-3（一个980亿参数的多模态模型，结合序列、结构和功能）的支持。

关键玩家与案例研究

Meta FAIR（基础AI研究）： 主要开发者，由Alexander Rives及其同事领导。Meta的策略是开源基础模型，将ESM确立为蛋白质语言建模的标准，类似于他们在LLaMA上对NLP所做的布局。这使Meta成为生物AI生态系统的关键基础设施提供商。

竞争方案：

| 方案 | 类型 | 关键优势 | 局限性 |
|---|---|---|---|
| ESM-2 / ESMFold | 纯序列PLM | 速度快、零样本突变预测 | 结构精度低于AlphaFold |
| AlphaFold2 / AlphaFold3 | MSA + 结构模块 | 最高结构精度（0.88+ LDDT） | 速度慢、需生成MSA、非零样本 |
| Tranception / TranceptEVE | 自回归 + 进化信息 | 结合检索的突变预测表现良好 | 推理速度更慢、内存占用更大 |
| ProtGPT2 / ProGen | 生成式PLM | 可生成全新序列 | 对现有蛋白质的预测精度较低 |

案例研究：Recursion Pharmaceuticals的药物发现
Recursion在其表型筛选流程中使用ESM-2对数千个遗传变异的影响进行评分。通过将ESM-2的零样本预测与细胞成像数据相结合，他们在靶点识别中将假阳性率降低了30%。

案例研究：Ginkgo Bioworks的酶工程
Ginkgo使用ESMFold快速预测工程化酶变体的结构。

时间归档

常见问题

GitHub 热点“ESM-2 and ESMFold: Meta's Open-Source Protein AI Reshapes Drug Discovery”主要讲了什么？

The Evolutionary Scale Modeling (ESM) project from Meta FAIR represents a paradigm shift in computational biology. Unlike traditional physics-based or homology modeling, ESM treats…

这个 GitHub 项目在“ESM-2 zero-shot mutation prediction accuracy vs deep mutational scanning”上为什么会引发关注？

The ESM family is built on the transformer architecture, specifically the masked language modeling (MLM) objective popularized by BERT. The core idea: given a protein sequence, randomly mask 15% of amino acids, and train…

从“ESMFold inference speed comparison with AlphaFold2 on consumer GPU”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 4075，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

ESM-2与ESMFold：Meta开源蛋白质AI重塑药物发现格局

技术深度解析

关键玩家与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题