技术深度解析
Simon Kohl的演讲聚焦于从筛选到生成式设计的根本性转变。Latent Labs的核心技术是一系列扩散模型和流匹配架构,这些模型在蛋白质结构和小分子的联合潜在空间上进行训练。与评估现有化合物的传统对接或分子动力学模拟不同,Latent Labs的模型学习的是能够与给定蛋白质靶点结合的有效、可合成分子的底层分布。
该架构建立在E(3)等变神经网络框架之上,该框架尊重3D分子空间的旋转和平移对称性。这一点至关重要,因为分子的形状和电荷分布决定了其生物学功能。模型使用条件去噪扩散概率模型(DDPM),其中噪声被添加到原子坐标和类型中,模型学习在目标蛋白质结合口袋的条件下逆转这一过程。
Kohl透露,Latent Labs已将其管线的关键组件开源:GitHub上的LatentDiff仓库,目前已获得超过4200颗星。该仓库提供了其等变扩散骨干网络的参考实现,以及基于PDBbind和BindingDB数据集的预训练检查点。该模型在广泛使用的虚拟筛选基准LIT-PCBA上取得了最先进的结果,AUC-ROC达到0.94,而传统对接方法如AutoDock Vina为0.88,早期基于图的生成模型为0.91。
| 模型 | LIT-PCBA AUC-ROC | 结合亲和力 (pKd) | 每个分子推理时间 |
|---|---|---|---|
| LatentDiff (Latent Labs) | 0.94 | 8.2 | 0.3秒 |
| AutoDock Vina | 0.88 | 7.5 | 45秒 |
| GraphBP (2023) | 0.91 | 7.9 | 1.2秒 |
| DiffDock (2024) | 0.92 | 8.0 | 0.8秒 |
数据要点: Latent Labs的模型不仅在准确性上优于经典对接和早期生成模型,而且速度快了几个数量级,使得在数小时内而非数周内对数亿个候选分子进行高通量虚拟筛选成为可能。
Kohl还强调了一种新颖的条件控制机制:模型可以通过多目标优化目标进行引导,例如合成可及性、毒性预测和ADME(吸收、分布、代谢、排泄)特性。这是通过在采样过程中使用无分类器引导实现的,允许模型生成同时满足多个类药性标准的分子。根据Latent Labs在50个靶点上的内部验证,与随机筛选相比,后续体外实验的命中率提高了40%。
关键玩家与案例研究
在生成式药物设计领域,Latent Labs并非孤军奋战,但Kohl的出身赋予了它独特的优势。该公司成立于2024年,获得了由Andreessen Horowitz和Nat Friedman领投、Y Combinator参与的5000万美元A轮融资。团队包括多位前DeepMind研究员和来自Recursion Pharmaceuticals的计算化学家。
主要竞争对手包括:
- Insilico Medicine:使用生成对抗网络(GANs)和强化学习的组合进行药物设计。其先导候选药物INS018_055正处于特发性肺纤维化的II期试验中。然而,Insilico的方法更侧重于靶点发现,而非基于蛋白质结构的分子生成。
- Recursion Pharmaceuticals:利用高通量细胞成像和机器学习来绘制疾病表型,但其生成式设计能力不如Latent Labs先进。
- Genesis Therapeutics:使用图神经网络和分子动力学进行候选药物优化,但其生成模型不够开放,也缺乏完善的基准测试。
| 公司 | 核心技术 | 先导候选药物阶段 | 融资额 | 开源仓库 |
|---|---|---|---|---|
| Latent Labs | 等变扩散模型 | 临床前 | 5000万美元 (A轮) | LatentDiff (4.2K星) |
| Insilico Medicine | GANs + 强化学习 | II期 | 4亿美元+ | 无 |
| Recursion Pharmaceuticals | 细胞成像 + 机器学习 | II期 | 12亿美元 | OpenRecursion (2.1K星) |
| Genesis Therapeutics | 图神经网络 + 分子动力学 | I期 | 2亿美元 | 无 |
数据要点: Latent Labs是这些公司中唯一将核心生成模型组件开源的,这建立了信任并加速了社区验证。与Recursion相比,其相对适中的融资额表明其采取了精益、专注的策略。
Kohl还承认了与学术实验室的合作,包括华盛顿大学的Baker Lab(以Rosetta和蛋白质设计闻名)和哥伦比亚大学的AlQuraishi Lab。这些合作伙伴关系提供了高质量蛋白质结构数据和验证管线的访问权限。
行业影响与市场动态
可编程生物学范式有潜力重塑整个制药价值链。