技术深度解析
ESM系列基于Transformer架构,核心采用BERT推广的掩码语言建模(MLM)目标。核心思路:给定一条蛋白质序列,随机掩码15%的氨基酸,训练模型预测被掩码的token。这迫使模型学习上下文依赖关系——本质上是蛋白质折叠与功能的“语法”。
架构变体:
- ESM-1v(2021年):6.5亿参数,单序列输入,针对零样本突变效应预测优化。采用独特的“掩码边际”方法:对每个突变位置,模型计算突变型与野生型氨基酸的对数似然比,并在多个掩码位置上取平均。
- ESM-2(2022年):参数规模从800万到30亿不等。引入旋转位置编码(RoPE)和SwiGLU激活函数,提升了训练稳定性和序列长度处理能力。30亿参数模型使用36个Transformer层和40个注意力头。
- ESMFold(2022年):端到端结构预测模型,用单次ESM-2前向传播替代昂贵的多序列比对(MSA)步骤。采用48层Transformer,配备几何注意力机制,直接预测主链坐标。
训练数据: 所有模型均在UniRef50数据库上预训练,该数据库包含约2.5亿条蛋白质序列,按50%序列同一性聚类。数据量比AlphaFold使用的序列数据库大数个数量级(AlphaFold依赖约20亿条序列的MSA,但需要多次遍历)。
零样本突变预测机制: 关键创新在于ESM-1v和ESM-2无需任何实验数据的监督训练即可预测突变的适应性效应。模型学习进化约束:高度保守的位置(突变概率低)很可能在功能上重要。预测得分为对数似然比:
\[ \Delta \log p = \log p(\text{突变型} | \text{上下文}) - \log p(\text{野生型} | \text{上下文}) \]
负值表示有害突变。该方法在深度突变扫描实验中达到0.4-0.7的Spearman相关系数,与监督方法相媲美。
性能基准:
| 模型 | 参数规模 | 突变预测(Spearman r) | 结构预测(LDDT) | 每条序列推理时间 |
|---|---|---|---|---|
| ESM-1v | 6.5亿 | 0.45(41个DMS实验平均) | 不适用 | ~0.1秒 |
| ESM-2(30亿) | 30亿 | 0.51 | 不适用 | ~0.5秒 |
| ESMFold | 30亿(主干) | 不适用 | 0.82(CASP14上) | ~0.2秒 |
| AlphaFold2 | ~9300万(Evoformer) | 不适用 | 0.88(CASP14上) | ~10-30秒 |
| Tranception | 7亿 | 0.43 | 不适用 | ~1秒 |
数据要点: ESM-2在纯序列模型中实现了最高的零样本突变预测精度,而ESMFold以约6%的结构精度换取相比AlphaFold2 50-100倍的速度提升。这一速度优势对高通量应用(如筛选数百万个变体)至关重要。
开源实现: 官方GitHub仓库(facebookresearch/esm)提供:
- 所有ESM-1v和ESM-2规模的预训练模型权重
- 用于突变评分和结构预测的推理脚本
- 下游任务(如稳定性预测、结合亲和力)的微调示例
- 与PyTorch和Hugging Face Transformers的集成
该仓库拥有4,075颗星,并得到积极维护,最新更新增加了对ESM-3(一个980亿参数的多模态模型,结合序列、结构和功能)的支持。
关键玩家与案例研究
Meta FAIR(基础AI研究): 主要开发者,由Alexander Rives及其同事领导。Meta的策略是开源基础模型,将ESM确立为蛋白质语言建模的标准,类似于他们在LLaMA上对NLP所做的布局。这使Meta成为生物AI生态系统的关键基础设施提供商。
竞争方案:
| 方案 | 类型 | 关键优势 | 局限性 |
|---|---|---|---|
| ESM-2 / ESMFold | 纯序列PLM | 速度快、零样本突变预测 | 结构精度低于AlphaFold |
| AlphaFold2 / AlphaFold3 | MSA + 结构模块 | 最高结构精度(0.88+ LDDT) | 速度慢、需生成MSA、非零样本 |
| Tranception / TranceptEVE | 自回归 + 进化信息 | 结合检索的突变预测表现良好 | 推理速度更慢、内存占用更大 |
| ProtGPT2 / ProGen | 生成式PLM | 可生成全新序列 | 对现有蛋白质的预测精度较低 |
案例研究:Recursion Pharmaceuticals的药物发现
Recursion在其表型筛选流程中使用ESM-2对数千个遗传变异的影响进行评分。通过将ESM-2的零样本预测与细胞成像数据相结合,他们在靶点识别中将假阳性率降低了30%。
案例研究:Ginkgo Bioworks的酶工程
Ginkgo使用ESMFold快速预测工程化酶变体的结构。