技术深度解析
Disco的架构代表了一个融合了多种尖端AI与计算生物学技术的复杂流程。其核心是一个条件生成模型,通常是Transformer或扩散模型的蛋白质专用变体。与图像或文本生成器不同,该模型的约束条件不是文本提示,而是功能“规格”。这种规格可以是多模态的:目标底物结合口袋的3D表征、期望化学反应过渡态的图结构,或是一组定量指标(如最佳pH范围或热稳定性)。
生成过程是迭代且高度受限的。模型首先提出一个初始氨基酸序列及其预测的折叠构象。随后,该提案会经过一系列*计算机模拟*验证筛选:
1. 折叠稳定性:使用快速、轻量级版本的结构预测网络(灵感源于但不同于AlphaFold2的Evoformer和结构模块)来验证该序列是否能折叠成稳定、低能量的3D结构。
2. 功能位点几何结构:通过分子对接模拟和量子力学/分子力学(QM/MM)计算,以原子精度评估活性位点残基的排布是否能稳定反应的过渡态。
3. 可表达性与溶解性:基于实验数据训练的预测器,评估该蛋白质在*大肠杆菌*等细胞系统中被生产并保持可溶性的可能性。
这些验证步骤的反馈信息,会在强化学习或贝叶斯优化循环中用于改进生成模型的提案。正是这种闭环、目标导向的生成过程,将Disco与此前常产生功能惰性但结构精美的折叠体的早期*从头*设计工作区分开来。
该生态系统中一个关键的开源组件是ProteinMPNN,这是华盛顿大学Baker实验室在GitHub上的一个代码库,已成为该领域的基础工具,获得了超过1,800颗星标。ProteinMPNN是一种消息传递神经网络,在给定蛋白质主链结构的情况下,它能设计出能折叠成该结构的最优氨基酸序列,其速度远超以往方法,且效果更佳。在Disco流程中,ProteinMPNN可用于“修复”或多样化已生成主链的序列,从而增强稳定性或可表达性。
近期的性能基准测试突显了进展。下表比较了传统的定向进化、先前的计算设计(如Rosetta)以及以Disco为代表的新型生成式AI驱动方法。
| 设计方法论 | 成功率(功能性酶) | 设计周期 | 关键局限 |
|---|---|---|---|
| 定向进化 | 0.001% - 0.1% | 数月到数年 | 局限于接近自然功能的起点;需要大规模实验筛选。 |
| 基于Rosetta的*从头*设计 | ~1%(针对简单折叠) | 数周到数月 | 极度依赖专家直觉;难以处理复杂功能位点。 |
| 生成式AI(Disco风格) | ~5-10%(早期估计) | 数天到数周 | 计算成本高;最终的实验验证是绝对瓶颈。 |
数据启示:数据显示,对于新功能,生成式AI方法相较于蛮力定向进化,成功率提高了10-100倍,同时将设计周期从数年大幅压缩至数周。主要瓶颈正从*设计*环节转向*高通量实验表征*环节。
关键参与者与案例研究
该领域正由学术先驱与资金雄厚的生物技术初创公司联盟共同推动。华盛顿大学的蛋白质设计研究所(IPD),由David Baker领导,是无可争议的学术中心。Baker的团队已从基于物理的Rosetta软件,转向深度整合ProteinMPNN和RFdiffusion(一种用于生成蛋白质主链的扩散模型)等神经网络。他们发表的关于为生物学中未知的反应设计全新酶的研究,为Disco范式提供了基础性的概念验证。
在商业前沿,多家公司正竞相将这项技术产品化:
* Generate Biomedicines:利用其称为“生成生物学”平台的生成式机器学习平台,旨在超越天然抗体和酶的限制,创造新型蛋白质疗法。
* Cradle:虽然广泛关注蛋白质工程,但其平台利用AI同时针对多种特性提出序列优化建议,体现了Disco核心的多约束优化理念。
* Arzeda:主要将计算蛋白质设计应用于工业酶领域,与化学和材料公司合作,为可持续制造设计生物催化剂。
一个开创性的案例研究是Baker实验室设计的逆醛醇缩合酶。