技术深度解析
此次合作的核心在于将OpenAI的大语言模型架构适配到分子与生物学的语言体系。与依赖基于物理的分子动力学模拟或在小规模精选数据集上训练的机器学习模型的传统计算药物发现不同,诺和诺德与OpenAI正采用一种基础模型方法。
架构与方法:
底层模型很可能是一个多模态Transformer,能够摄入并生成多种数据模态:SMILES字符串(化学结构的文本表示)、蛋白质序列数据、3D分子构象(通过点云或图神经网络嵌入),以及自然语言形式的临床试验结果。这类似于GPT-4可以同时处理文本和图像,但这里的“图像”是分子图,而“文本”是生物测定数据。
一个关键的技术创新是引入了检索增强生成(RAG)层。诺和诺德的专有数据库包含数十年来的失败与成功药物候选物、患者层面的疗效数据以及不良事件报告。模型可以在生成过程中检索相关的历史案例,将其分子提案建立在真实世界证据之上,而非仅仅依赖公共数据集的统计模式。
相关开源生态:
尽管此次合作是专有的,但更广泛的领域正通过开源努力快速推进。Molecule.one仓库(GitHub: molecule-one/molecule-generation)提供了基于Transformer的逆合成规划模型。OpenFold(GitHub: aqlaboratory/openfold)提供了AlphaFold2的开源实现,用于蛋白质结构预测。Meta AI的ESM-2(进化规模建模,GitHub: facebookresearch/esm)已证明蛋白质语言模型能够以接近实验的精度预测突变效应。这些工具虽未被诺和诺德直接使用,但代表了其专有系统必须超越的当前最高水平。
AI潜力的基准测试:
关键问题在于,基于LLM的方法能否超越已有的AI药物发现方法。以下是当前方法的对比:
| 方法 | 示例平台 | 关键优势 | 关键劣势 | 报告命中率(体外) |
|---|---|---|---|---|
| 基于物理的分子对接 | Schrödinger, AutoDock Vina | 高可解释性,无需训练数据 | 速度慢,对新型蛋白质靶点效果差 | ~5-15% |
| 图神经网络 | DeepMind的AlphaFold, Graphcore | 速度快,从数据中学习 | 需要大规模训练集,容易过拟合已知化学类型 | ~10-25% |
| 生成式LLM(本次合作) | OpenAI + 诺和诺德 | 能提出真正新颖的骨架,整合临床数据 | 黑箱,存在幻觉风险,未在III期临床中验证 | 未知(目标>30%) |
| 扩散模型(分子) | EquiDock, DiffDock | 在3D构象生成方面表现出色 | 计算成本高 | ~20-30%(理论值) |
数据要点: 生成式LLM方法承诺最高的新颖性和潜在命中率,但也是验证最少的。此次合作的成功取决于模型的“幻觉”对应的是可行的分子还是死胡同。
关键参与者与案例研究
诺和诺德: GLP-1疗法领域的现任领导者,拥有司美格鲁肽(Ozempic, Wegovy)。其市值已飙升至超过5000亿美元,但面临关键的专利悬崖:司美格鲁肽的关键专利在美国将于2032年左右开始到期。此次合作是对抗该悬崖的对冲策略,旨在开发具有差异化机制的后继分子——可能是三重激动剂(GIP/GLP-1/胰高血糖素)或口服非肽类小分子。
OpenAI: 这标志着OpenAI在生命科学领域最深度的涉足。与早期合作(例如与Moderna在mRNA优化上,或与Recursion Pharmaceuticals在表型筛选上)不同,此次合作使OpenAI能够访问世界上最丰富的专有临床数据集之一。据报道,交易结构采用收入分成模式而非固定费用,从而在临床成功上实现激励对齐。
礼来: 主要竞争对手。替尔泊肽在SURMOUNT-1试验中已显示出约22.5%的减重效果,而司美格鲁肽约为15%。礼来还在开发口服GLP-1激动剂orforglipron和三重激动剂retatrutide。其AI策略更为保守,依赖内部团队以及与Verge Genomics等小型AI公司的合作。诺和诺德与OpenAI的交易迫使礼来做出回应——要么深化自身的AI投资,要么收购一家AI原生生物技术公司。
其他竞争者:
| 公司 | AI平台 | 重点领域 | 阶段 |
|---|---|---|---|
| Recursion Pharmaceuticals | Phenomap(高内涵成像+机器学习) | 罕见病、肿瘤学 | II期 |
| Insilico Medicine | Pharma.AI(生成式化学) | 纤维化、癌症 | II期 |