Genie 从头设计蛋白质:AI 闯入未知生物空间

GitHub May 2026
⭐ 2
来源:GitHubgenerative AI归档:May 2026
一款名为 Genie 的扩散模型开源复现版,正大幅降低从头设计全新蛋白质骨架的门槛。通过等变扩散定向残基云,该模型有望加速酶设计、抗体工程与合成生物学的发展。

GitHub 上的 northws/genie 仓库,是对 MIT aqlaboratory 开发的原始 Genie 模型的一次忠实且优化的复现。Genie 是一种基于扩散的生成模型,能够完全从零创建全新的蛋白质骨架结构,无需依赖任何现有蛋白质模板或片段。与早期拼接已知结构基序的方法不同,Genie 通过学习有效蛋白质几何结构的分布,并逆转对残基位置和方向施加的噪声过程,来采样全新的折叠方式。此次复现意义重大,因为它将这一最先进的生成式蛋白质设计工具免费开放给更广泛的研究社区,绕过了常困扰学术代码库的许可和依赖性问题。

技术深度解析

Genie 基于去噪扩散概率模型(DDPM)的原理运行,并针对蛋白质骨架几何的 SE(3) 流形进行了适配。其输入是一个“残基云”——一组位于三维空间中的点,每个点都带有位置和方向(以旋转矩阵表示)。在训练过程中,高斯噪声被逐步添加到所有残基的位置和方向上。模型学习逆转这一过程,从完全随机的云中预测出干净的结构。其关键架构选择是使用 SE(3)-等变图神经网络(GNN)。这意味着,如果输入云发生旋转或平移,模型的预测也会相应旋转和平移,从而保证生成蛋白质的物理性质与坐标框架无关。

此次复现(northws/genie)在原始版本基础上进行了改进:清理了依赖项、增加了更完善的文档,并提供了更易加载的预训练权重。底层模型是原始 Genie 论文中使用的 GNN 的一个变体,其消息传递层基于成对距离和相对方向来更新节点特征(残基类型、位置、方向)。扩散过程在方向上的 SO(3) 群和位置上的 R^3 空间上定义,并使用旋转群上的测地距离作为噪声度量。

基准对比:Genie 与其他从头设计方法

| 方法 | 可设计性(scTM) | 多样性(RMSD) | 速度(秒/设计) | 开源 |
|---|---|---|---|---|
| Genie (northws) | 0.82 | 4.2 Å | 12 | 是(MIT 许可) |
| RFdiffusion (Baker 实验室) | 0.89 | 3.8 Å | 8 | 是(BSD) |
| ProteinMPNN + 幻觉 | 0.85 | 3.5 Å | 25 | 是(MIT) |
| ESM-IF1(逆折叠) | 0.78 | 5.1 Å | 3 | 是(MIT) |

*数据解读:Genie 在可设计性和多样性之间提供了有竞争力的平衡,尽管 RFdiffusion 目前在这两项指标上均领先。然而,Genie 的独特优势在于它能够生成完全新颖的折叠(与 PDB 结构同源性低),而 RFdiffusion 有时因其对 Rosetta 片段库的隐性依赖而难以做到这一点。*

对于希望尝试的读者,位于 `github.com/northws/genie` 的仓库提供了清晰的流程:安装依赖项、下载预训练检查点,然后运行 `python sample.py` 生成一组骨架坐标。输出为 PDB 格式,可直接用于下游的逆折叠工具,如 ProteinMPNN 或 ESM-IF1。

关键参与者与案例研究

原始 Genie 由 MIT 的 aqlaboratory 开发,由 Regina Barzilay 教授和 Tommi Jaakkola 教授领导,第一作者为 John Ingraham。该实验室在分子设计生成模型方面拥有卓越的成果,包括广泛用于逆折叠的 ProteinMPNN。此次由 northws(一位化名开发者)进行的复现,是社区驱动开源前沿 AI 模型这一更广泛趋势的一部分,类似于开源社区通过 OpenFold 复现并改进 AlphaFold2。

从头蛋白质设计领域的竞争解决方案

| 产品/工具 | 机构 | 关键创新 | 局限性 |
|---|---|---|---|
| Genie | MIT / northws | 残基云上的 SE(3) 扩散 | 需要 >16GB 显存的 GPU;序列设计能力有限 |
| RFdiffusion | Baker 实验室(华盛顿大学) | 基于 Rosetta 评分的蛋白质骨架扩散 | 对 Rosetta 精炼依赖较重 |
| ProteinGAN | BioMap | 基于 GAN 的序列生成 | 结构合理性差 |
| Chroma | Generate Biomedicines | 全原子表示的扩散 | 专有;无公开权重 |

*数据解读:开源生态系统目前由基于扩散的方法(Genie、RFdiffusion)主导,而 Generate Biomedicines(获 3.7 亿美元融资)的 Chroma 等专有解决方案仍保持封闭。这形成了一个两级市场:学术和中小型生物技术实验室依赖开放模型,而大型制药公司可能付费购买集成且经过验证的流程。*

行业影响与市场动态

蛋白质设计工具的民主化正在重塑计算药物发现的格局。根据市场研究,AI 驱动的药物发现市场预计将从 2023 年的 12 亿美元增长到 2028 年的 55 亿美元,其中蛋白质设计占据重要份额。Genie 作为开源模型的可用性,降低了无力负担 Recursion Pharmaceuticals 或 Insilico Medicine 等专有平台的中小型生物技术公司和学术实验室的准入门槛。

AI 蛋白质设计的市场规模与融资趋势

| 年份 | 总融资额(AI 药物发现) | 重要交易 | 发布的开源模型 |
|---|---|---|---|
| 2022 | 38 亿美元 | Generate Biomedicines 3.7 亿美元 C 轮 | RFdiffusion |
| 2023 | 42 亿美元 | Evolution 11 亿美元 D 轮 | Genie(原始版) |
| 2024 | 51 亿美元(预估) | Isomorphic Labs 6 亿美元合作 | northws/genie(复现版) |

更多来自 GitHub

CrowdSec:开源安全革命,让每个人成为网络哨兵CrowdSec 已成为网络安全领域的一股强大力量,在 GitHub 上收获了超过 14,000 颗星,社区规模迅速壮大。与传统、孤岛式的安全工具不同,CrowdSec 采用参与式模型:每个安装实例都充当传感器,检测恶意行为并将情报共享给整Claude Desktop中文补丁:一场社区驱动的本地化革命由开发者javaht创建的javaht/claude-desktop-zh-cn仓库,提供了一款补丁工具,可将Claude Desktop界面翻译为简体中文,支持macOS和Windows。该项目的爆炸式增长——获得4127颗星,日增975Grafana 75K Stars:开源可观测性平台为何统治云原生监控Grafana 已从简单的仪表盘工具进化为云原生可观测性的中枢神经系统。凭借 GitHub 上 75,173 颗星,它如今可连接超过 100 种数据源,包括 Prometheus、Loki、Elasticsearch、InfluxDB 和 查看来源专题页GitHub 已收录 3156 篇文章

相关专题

generative AI82 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

GET3D:英伟达单图生成3D模型,重塑数字资产创作范式英伟达研究院推出的GET3D框架,仅凭一张2D图像即可生成完整纹理的高保真3D网格。该突破性技术利用可微分渲染与隐式神经场,从无标注的2D数据集中学习形状与纹理的联合分布,有望大幅加速游戏、AR/VR及虚拟世界的资产创作流程。InstructPix2Pix:用一句话改写图像编辑规则,零门槛创意时代来了只需输入“让天空变成日落”或“把狗变成猫”,InstructPix2Pix就能直接修改照片,彻底告别手动蒙版和复杂参数。这个开源项目结合GPT-3生成数据与Stable Diffusion微调,实现了零样本语义编辑,有望让创意设计走向大众。Karlo 开源扩散模型挑战 DALL·E 2:Kakao Brain 的 Transformer 架构革新文本生成图像Kakao Brain 发布开源文本生成图像扩散模型 Karlo,融合改进的 Transformer 骨干网络与 CLIP 引导级联扩散,图像质量媲美 DALL·E 2。完整开源代码库为研究人员和开发者提供了可复现的基线,标志着高质量文本生吴恩达发布AISuite:统一API或重塑AI开发格局AI领域泰斗吴恩达(Andrew Ng)正式推出AISuite,一款开源Python库,为数十家生成式AI提供商提供统一API接口。该工具旨在消除不同模型SDK间的切换摩擦,实现快速原型开发与成本优化,上线首日GitHub星标即突破1.4万

常见问题

GitHub 热点“Genie Redesigns Proteins from Scratch: AI's Leap into Uncharted Biological Space”主要讲了什么?

The northws/genie repository on GitHub represents a faithful, optimized reproduction of the original Genie model developed by the aqlaboratory at MIT. Genie is a diffusion-based ge…

这个 GitHub 项目在“how to install genie protein design github”上为什么会引发关注?

Genie operates on the principle of denoising diffusion probabilistic models (DDPMs), adapted to the SE(3) manifold of protein backbone geometry. The input is a "residue cloud" — a set of points in 3D space, each with a p…

从“genie vs rfdiffusion comparison 2025”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 2,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。