Disco AI重塑蛋白质设计：创造自然界从未进化出的酶

Disco框架代表了计算生物学的一个关键转折点，使AI从分析自然目录的工具转变为扩展该目录的引擎。其技术核心在于超越了以AlphaFold2为代表的传统蛋白质结构预测范式。AlphaFold2擅长从氨基酸序列预测蛋白质的三维结构——这是一项里程碑式的分析成就——而Disco则反其道而行，走生成式路线。它从期望的功能出发，例如分解某种特定塑料聚合物或在药物合成中催化一个新颖的化学步骤，然后发明一种稳定、具有功能性的蛋白质结构来实现该功能，这种结构很可能在任何已知基因组中都找不到对应物。

这是分子尺度的发明，而非发现。

技术深度解析

Disco的架构代表了一个融合了多种尖端AI与计算生物学技术的复杂流程。其核心是一个条件生成模型，通常是Transformer或扩散模型的蛋白质专用变体。与图像或文本生成器不同，该模型的约束条件不是文本提示，而是功能“规格”。这种规格可以是多模态的：目标底物结合口袋的3D表征、期望化学反应过渡态的图结构，或是一组定量指标（如最佳pH范围或热稳定性）。

生成过程是迭代且高度受限的。模型首先提出一个初始氨基酸序列及其预测的折叠构象。随后，该提案会经过一系列*计算机模拟*验证筛选：

1. 折叠稳定性：使用快速、轻量级版本的结构预测网络（灵感源于但不同于AlphaFold2的Evoformer和结构模块）来验证该序列是否能折叠成稳定、低能量的3D结构。
2. 功能位点几何结构：通过分子对接模拟和量子力学/分子力学（QM/MM）计算，以原子精度评估活性位点残基的排布是否能稳定反应的过渡态。
3. 可表达性与溶解性：基于实验数据训练的预测器，评估该蛋白质在*大肠杆菌*等细胞系统中被生产并保持可溶性的可能性。

这些验证步骤的反馈信息，会在强化学习或贝叶斯优化循环中用于改进生成模型的提案。正是这种闭环、目标导向的生成过程，将Disco与此前常产生功能惰性但结构精美的折叠体的早期*从头*设计工作区分开来。

该生态系统中一个关键的开源组件是ProteinMPNN，这是华盛顿大学Baker实验室在GitHub上的一个代码库，已成为该领域的基础工具，获得了超过1,800颗星标。ProteinMPNN是一种消息传递神经网络，在给定蛋白质主链结构的情况下，它能设计出能折叠成该结构的最优氨基酸序列，其速度远超以往方法，且效果更佳。在Disco流程中，ProteinMPNN可用于“修复”或多样化已生成主链的序列，从而增强稳定性或可表达性。

近期的性能基准测试突显了进展。下表比较了传统的定向进化、先前的计算设计（如Rosetta）以及以Disco为代表的新型生成式AI驱动方法。

| 设计方法论 | 成功率（功能性酶） | 设计周期 | 关键局限 |
|---|---|---|---|
| 定向进化 | 0.001% - 0.1% | 数月到数年 | 局限于接近自然功能的起点；需要大规模实验筛选。 |
| 基于Rosetta的*从头*设计 | ~1%（针对简单折叠） | 数周到数月 | 极度依赖专家直觉；难以处理复杂功能位点。 |
| 生成式AI（Disco风格） | ~5-10%（早期估计） | 数天到数周 | 计算成本高；最终的实验验证是绝对瓶颈。 |

数据启示：数据显示，对于新功能，生成式AI方法相较于蛮力定向进化，成功率提高了10-100倍，同时将设计周期从数年大幅压缩至数周。主要瓶颈正从*设计*环节转向*高通量实验表征*环节。

关键参与者与案例研究

该领域正由学术先驱与资金雄厚的生物技术初创公司联盟共同推动。华盛顿大学的蛋白质设计研究所（IPD），由David Baker领导，是无可争议的学术中心。Baker的团队已从基于物理的Rosetta软件，转向深度整合ProteinMPNN和RFdiffusion（一种用于生成蛋白质主链的扩散模型）等神经网络。他们发表的关于为生物学中未知的反应设计全新酶的研究，为Disco范式提供了基础性的概念验证。

在商业前沿，多家公司正竞相将这项技术产品化：

* Generate Biomedicines：利用其称为“生成生物学”平台的生成式机器学习平台，旨在超越天然抗体和酶的限制，创造新型蛋白质疗法。
* Cradle：虽然广泛关注蛋白质工程，但其平台利用AI同时针对多种特性提出序列优化建议，体现了Disco核心的多约束优化理念。
* Arzeda：主要将计算蛋白质设计应用于工业酶领域，与化学和材料公司合作，为可持续制造设计生物催化剂。

一个开创性的案例研究是Baker实验室设计的逆醛醇缩合酶。

延伸阅读

常见问题

这次模型发布“Disco AI Redefines Protein Design: Inventing Enzymes Nature Never Evolved”的核心内容是什么？

The Disco framework represents a pivotal inflection point in computational biology, transitioning AI from a tool for analyzing nature's catalog to an engine for expanding it. At it…

从“Disco AI vs AlphaFold2 difference explained”看，这个模型发布为什么重要？

Disco's architecture represents a sophisticated pipeline that marries several cutting-edge AI and computational biology techniques. At its heart is a conditional generative model, often a protein-specific variant of a tr…

围绕“how to run ProteinMPNN locally for enzyme design”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。