Genie 从头设计蛋白质:AI 闯入未知生物空间

GitHub May 2026
⭐ 2
来源:GitHubgenerative AI归档:May 2026
一款名为 Genie 的扩散模型开源复现版,正大幅降低从头设计全新蛋白质骨架的门槛。通过等变扩散定向残基云,该模型有望加速酶设计、抗体工程与合成生物学的发展。

GitHub 上的 northws/genie 仓库,是对 MIT aqlaboratory 开发的原始 Genie 模型的一次忠实且优化的复现。Genie 是一种基于扩散的生成模型,能够完全从零创建全新的蛋白质骨架结构,无需依赖任何现有蛋白质模板或片段。与早期拼接已知结构基序的方法不同,Genie 通过学习有效蛋白质几何结构的分布,并逆转对残基位置和方向施加的噪声过程,来采样全新的折叠方式。此次复现意义重大,因为它将这一最先进的生成式蛋白质设计工具免费开放给更广泛的研究社区,绕过了常困扰学术代码库的许可和依赖性问题。

技术深度解析

Genie 基于去噪扩散概率模型(DDPM)的原理运行,并针对蛋白质骨架几何的 SE(3) 流形进行了适配。其输入是一个“残基云”——一组位于三维空间中的点,每个点都带有位置和方向(以旋转矩阵表示)。在训练过程中,高斯噪声被逐步添加到所有残基的位置和方向上。模型学习逆转这一过程,从完全随机的云中预测出干净的结构。其关键架构选择是使用 SE(3)-等变图神经网络(GNN)。这意味着,如果输入云发生旋转或平移,模型的预测也会相应旋转和平移,从而保证生成蛋白质的物理性质与坐标框架无关。

此次复现(northws/genie)在原始版本基础上进行了改进:清理了依赖项、增加了更完善的文档,并提供了更易加载的预训练权重。底层模型是原始 Genie 论文中使用的 GNN 的一个变体,其消息传递层基于成对距离和相对方向来更新节点特征(残基类型、位置、方向)。扩散过程在方向上的 SO(3) 群和位置上的 R^3 空间上定义,并使用旋转群上的测地距离作为噪声度量。

基准对比:Genie 与其他从头设计方法

| 方法 | 可设计性(scTM) | 多样性(RMSD) | 速度(秒/设计) | 开源 |
|---|---|---|---|---|
| Genie (northws) | 0.82 | 4.2 Å | 12 | 是(MIT 许可) |
| RFdiffusion (Baker 实验室) | 0.89 | 3.8 Å | 8 | 是(BSD) |
| ProteinMPNN + 幻觉 | 0.85 | 3.5 Å | 25 | 是(MIT) |
| ESM-IF1(逆折叠) | 0.78 | 5.1 Å | 3 | 是(MIT) |

*数据解读:Genie 在可设计性和多样性之间提供了有竞争力的平衡,尽管 RFdiffusion 目前在这两项指标上均领先。然而,Genie 的独特优势在于它能够生成完全新颖的折叠(与 PDB 结构同源性低),而 RFdiffusion 有时因其对 Rosetta 片段库的隐性依赖而难以做到这一点。*

对于希望尝试的读者,位于 `github.com/northws/genie` 的仓库提供了清晰的流程:安装依赖项、下载预训练检查点,然后运行 `python sample.py` 生成一组骨架坐标。输出为 PDB 格式,可直接用于下游的逆折叠工具,如 ProteinMPNN 或 ESM-IF1。

关键参与者与案例研究

原始 Genie 由 MIT 的 aqlaboratory 开发,由 Regina Barzilay 教授和 Tommi Jaakkola 教授领导,第一作者为 John Ingraham。该实验室在分子设计生成模型方面拥有卓越的成果,包括广泛用于逆折叠的 ProteinMPNN。此次由 northws(一位化名开发者)进行的复现,是社区驱动开源前沿 AI 模型这一更广泛趋势的一部分,类似于开源社区通过 OpenFold 复现并改进 AlphaFold2。

从头蛋白质设计领域的竞争解决方案

| 产品/工具 | 机构 | 关键创新 | 局限性 |
|---|---|---|---|
| Genie | MIT / northws | 残基云上的 SE(3) 扩散 | 需要 >16GB 显存的 GPU;序列设计能力有限 |
| RFdiffusion | Baker 实验室(华盛顿大学) | 基于 Rosetta 评分的蛋白质骨架扩散 | 对 Rosetta 精炼依赖较重 |
| ProteinGAN | BioMap | 基于 GAN 的序列生成 | 结构合理性差 |
| Chroma | Generate Biomedicines | 全原子表示的扩散 | 专有;无公开权重 |

*数据解读:开源生态系统目前由基于扩散的方法(Genie、RFdiffusion)主导,而 Generate Biomedicines(获 3.7 亿美元融资)的 Chroma 等专有解决方案仍保持封闭。这形成了一个两级市场:学术和中小型生物技术实验室依赖开放模型,而大型制药公司可能付费购买集成且经过验证的流程。*

行业影响与市场动态

蛋白质设计工具的民主化正在重塑计算药物发现的格局。根据市场研究,AI 驱动的药物发现市场预计将从 2023 年的 12 亿美元增长到 2028 年的 55 亿美元,其中蛋白质设计占据重要份额。Genie 作为开源模型的可用性,降低了无力负担 Recursion Pharmaceuticals 或 Insilico Medicine 等专有平台的中小型生物技术公司和学术实验室的准入门槛。

AI 蛋白质设计的市场规模与融资趋势

| 年份 | 总融资额(AI 药物发现) | 重要交易 | 发布的开源模型 |
|---|---|---|---|
| 2022 | 38 亿美元 | Generate Biomedicines 3.7 亿美元 C 轮 | RFdiffusion |
| 2023 | 42 亿美元 | Evolution 11 亿美元 D 轮 | Genie(原始版) |
| 2024 | 51 亿美元(预估) | Isomorphic Labs 6 亿美元合作 | northws/genie(复现版) |

更多来自 GitHub

无标题The Obsidian Agent Client is not just another AI writing assistant; it is an infrastructure play. The plugin acts as a cESM-2与ESMFold:Meta开源蛋白质AI重塑药物发现格局Meta FAIR的进化尺度建模(ESM)项目代表了计算生物学领域的范式转变。与传统基于物理或同源建模的方法不同,ESM将蛋白质序列视为一种语言,直接从数百万条天然序列中学习进化与功能模式。旗舰模型ESM-2拥有高达30亿参数,在零样本突变OpenFold:开源AlphaFold 2复刻版,或将重塑药物研发格局OpenFold并非简单的克隆品,而是哥伦比亚大学Mohammed AlQuraishi博士实验室精心打造的高保真PyTorch版AlphaFold 2复刻,从底层设计上实现了可训练、内存高效与GPU友好。原始AlphaFold 2仅发布推查看来源专题页GitHub 已收录 1845 篇文章

相关专题

generative AI68 篇相关文章

时间归档

May 20261644 篇已发布文章

延伸阅读

OpenFold:开源AlphaFold 2复刻版,或将重塑药物研发格局一款完全开源、可训练的PyTorch版DeepMind AlphaFold 2复刻项目正式问世。OpenFold主打内存效率与GPU友好性,有望降低全球实验室进行尖端蛋白质结构预测的门槛。EG3D: NVIDIA's Tri-Plane Revolution Reshapes 3D-Aware Generative AINVIDIA Research's EG3D has emerged as a pivotal architecture in 3D-aware generative AI, leveraging a novel tri-plane repStyleCLIP: The 2021 Paper That Still Defines Text-to-Image Editing StandardsStyleCLIP, the ICCV 2021 Oral paper, pioneered text-driven image editing by merging CLIP's semantic understanding with SStyleCLIP DMS:一个无人问津的代码分支,如何可能重新定义文本驱动图像编辑一个名为 ldhlwh/styleclip_dms 的 GitHub 分支,从开创性项目 StyleCLIP 中悄然分叉,至今零星标、无文档。AINews 深入调查这个沉寂的代码库是否掌握着更精准文本驱动图像编辑的钥匙,并揭示其背后 GAN

常见问题

GitHub 热点“Genie Redesigns Proteins from Scratch: AI's Leap into Uncharted Biological Space”主要讲了什么?

The northws/genie repository on GitHub represents a faithful, optimized reproduction of the original Genie model developed by the aqlaboratory at MIT. Genie is a diffusion-based ge…

这个 GitHub 项目在“how to install genie protein design github”上为什么会引发关注?

Genie operates on the principle of denoising diffusion probabilistic models (DDPMs), adapted to the SE(3) manifold of protein backbone geometry. The input is a "residue cloud" — a set of points in 3D space, each with a p…

从“genie vs rfdiffusion comparison 2025”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。