技术深度解析
Genie 基于去噪扩散概率模型(DDPM)的原理运行,并针对蛋白质骨架几何的 SE(3) 流形进行了适配。其输入是一个“残基云”——一组位于三维空间中的点,每个点都带有位置和方向(以旋转矩阵表示)。在训练过程中,高斯噪声被逐步添加到所有残基的位置和方向上。模型学习逆转这一过程,从完全随机的云中预测出干净的结构。其关键架构选择是使用 SE(3)-等变图神经网络(GNN)。这意味着,如果输入云发生旋转或平移,模型的预测也会相应旋转和平移,从而保证生成蛋白质的物理性质与坐标框架无关。
此次复现(northws/genie)在原始版本基础上进行了改进:清理了依赖项、增加了更完善的文档,并提供了更易加载的预训练权重。底层模型是原始 Genie 论文中使用的 GNN 的一个变体,其消息传递层基于成对距离和相对方向来更新节点特征(残基类型、位置、方向)。扩散过程在方向上的 SO(3) 群和位置上的 R^3 空间上定义,并使用旋转群上的测地距离作为噪声度量。
基准对比:Genie 与其他从头设计方法
| 方法 | 可设计性(scTM) | 多样性(RMSD) | 速度(秒/设计) | 开源 |
|---|---|---|---|---|
| Genie (northws) | 0.82 | 4.2 Å | 12 | 是(MIT 许可) |
| RFdiffusion (Baker 实验室) | 0.89 | 3.8 Å | 8 | 是(BSD) |
| ProteinMPNN + 幻觉 | 0.85 | 3.5 Å | 25 | 是(MIT) |
| ESM-IF1(逆折叠) | 0.78 | 5.1 Å | 3 | 是(MIT) |
*数据解读:Genie 在可设计性和多样性之间提供了有竞争力的平衡,尽管 RFdiffusion 目前在这两项指标上均领先。然而,Genie 的独特优势在于它能够生成完全新颖的折叠(与 PDB 结构同源性低),而 RFdiffusion 有时因其对 Rosetta 片段库的隐性依赖而难以做到这一点。*
对于希望尝试的读者,位于 `github.com/northws/genie` 的仓库提供了清晰的流程:安装依赖项、下载预训练检查点,然后运行 `python sample.py` 生成一组骨架坐标。输出为 PDB 格式,可直接用于下游的逆折叠工具,如 ProteinMPNN 或 ESM-IF1。
关键参与者与案例研究
原始 Genie 由 MIT 的 aqlaboratory 开发,由 Regina Barzilay 教授和 Tommi Jaakkola 教授领导,第一作者为 John Ingraham。该实验室在分子设计生成模型方面拥有卓越的成果,包括广泛用于逆折叠的 ProteinMPNN。此次由 northws(一位化名开发者)进行的复现,是社区驱动开源前沿 AI 模型这一更广泛趋势的一部分,类似于开源社区通过 OpenFold 复现并改进 AlphaFold2。
从头蛋白质设计领域的竞争解决方案
| 产品/工具 | 机构 | 关键创新 | 局限性 |
|---|---|---|---|
| Genie | MIT / northws | 残基云上的 SE(3) 扩散 | 需要 >16GB 显存的 GPU;序列设计能力有限 |
| RFdiffusion | Baker 实验室(华盛顿大学) | 基于 Rosetta 评分的蛋白质骨架扩散 | 对 Rosetta 精炼依赖较重 |
| ProteinGAN | BioMap | 基于 GAN 的序列生成 | 结构合理性差 |
| Chroma | Generate Biomedicines | 全原子表示的扩散 | 专有;无公开权重 |
*数据解读:开源生态系统目前由基于扩散的方法(Genie、RFdiffusion)主导,而 Generate Biomedicines(获 3.7 亿美元融资)的 Chroma 等专有解决方案仍保持封闭。这形成了一个两级市场:学术和中小型生物技术实验室依赖开放模型,而大型制药公司可能付费购买集成且经过验证的流程。*
行业影响与市场动态
蛋白质设计工具的民主化正在重塑计算药物发现的格局。根据市场研究,AI 驱动的药物发现市场预计将从 2023 年的 12 亿美元增长到 2028 年的 55 亿美元,其中蛋白质设计占据重要份额。Genie 作为开源模型的可用性,降低了无力负担 Recursion Pharmaceuticals 或 Insilico Medicine 等专有平台的中小型生物技术公司和学术实验室的准入门槛。
AI 蛋白质设计的市场规模与融资趋势
| 年份 | 总融资额(AI 药物发现) | 重要交易 | 发布的开源模型 |
|---|---|---|---|
| 2022 | 38 亿美元 | Generate Biomedicines 3.7 亿美元 C 轮 | RFdiffusion |
| 2023 | 42 亿美元 | Evolution 11 亿美元 D 轮 | Genie(原始版) |
| 2024 | 51 亿美元(预估) | Isomorphic Labs 6 亿美元合作 | northws/genie(复现版) |