技术深度解析
水木分子的“双轮驱动”架构,标志着对AI制药主流范式的重大偏离。大多数竞争对手,如Insilico Medicine或Recursion Pharmaceuticals,专注于端到端生成模型,从零开始提出全新分子结构。这些系统虽然强大,但常常产生在合成上不可行或具有毒性的分子——这些问题对经验丰富的药物化学家而言一目了然,对模型却隐而不见。
水木分子的方法本质不同。他们并非部署单一的巨型模型,而是采用模块化的专用LLM智能体系统,每个智能体针对药物发现管线的特定阶段进行微调。其核心创新在于一个位于预训练LLM与用户应用之间的“知识注入层”。这一层并非仅靠公开数据训练,而是通过一个与专家化学家的反馈循环持续更新:化学家们审阅模型的输出——建议的合成路线、预测的ADMET(吸收、分布、代谢、排泄、毒性)性质或文献摘要——并进行修正。这些修正随后通过基于人类反馈的强化学习(RLHF)用于微调模型,但有一个关键变体:奖励模型并非通用的偏好模型,而是基于化学家修正训练出的领域专用模型。
一个关键的技术细节是使用检索增强生成(RAG)将LLM锚定在企业的专有数据上。大多数制药公司拥有数十年的内部实验数据,这些数据从未进入ChEMBL或PubChem等公共数据库。水木分子的平台允许企业索引这些数据,并在模型进行预测时检索相关历史结果。例如,如果一位化学家询问一种新型激酶抑制剂的合成路线,模型会首先搜索公司内部的反应数据库,寻找类似的转化反应,然后再生成提案。
该团队还在GitHub上开源了一个专门的基准数据集DrugChat(目前约1200星),用于评估LLM在药理学、药物化学和监管科学领域回答10000多个专家策划问题的能力。该基准揭示了一个关键差距:即使是GPT-4o在DrugChat上的准确率也仅为72%,而水木分子微调后的模型达到了89%。
| 模型 | DrugChat准确率 | 合成路线接受率 | 毒性预测AUC-ROC |
|---|---|---|---|
| GPT-4o | 72% | 58% | 0.81 |
| Claude 3.5 Sonnet | 74% | 61% | 0.83 |
| 水木分子v1(仅公开数据) | 78% | 67% | 0.86 |
| 水木分子v2(注入默会知识) | 89% | 82% | 0.93 |
数据要点: DrugChat准确率提升11个百分点,合成路线接受率提升15个百分点,直接量化了注入专家化学家默会知识的价值。毒性预测AUC-ROC从0.86提升至0.93尤为显著,因为毒性预测中的假阴性是导致后期药物失败的主要原因之一。
关键玩家与案例研究
主要实体是水木分子(Shuimufenzi),一家从清华大学智能产业研究院(AIR)孵化的初创公司。聂再清教授领导该团队。聂再清是AI领域的知名人物,此前曾领导微软亚洲研究院的知识计算组,从事大规模知识图谱和自然语言理解研究。他的背景至关重要:他既理解纯AI的技术局限,也理解领域专家的实际需求。
该公司已与多家中国顶级制药公司合作,包括江苏恒瑞医药和百济神州,以部署其平台。这些合作不仅是商业交易,更是数据共享协议:制药公司提供其专有实验数据的访问权限,更重要的是,提供资深药物化学家时间来训练模型。
这与Insilico Medicine的策略形成鲜明对比。Insilico已筹集超过4亿美元,正在开发自己的药物管线。Insilico的方法风险更高、回报也更高:如果他们的AI发现了一款重磅药物,收益将是巨大的。但这也意味着他们与潜在客户竞争。水木分子的横向模式避免了这种冲突。他们是工具提供者,而非药物开发者。
另一个竞争对手是Atomwise,它使用卷积神经网络进行虚拟筛选。Atomwise在商业应用上一直举步维艰,部分原因是其模型是黑箱,无法解释其推理过程。水木分子基于LLM的方法本质上更具可解释性:模型可以生成自然语言解释,说明为什么预测某个分子具有毒性,并引用具体的结构警报或文献参考。
| 公司 | 方法 | 商业模式 | 融资情况 |
|---|---|---|---|
| 水木分子 | 双轮驱动LLM + 专家反馈 | 工具提供商(SaaS + 数据合作) | 未公开(清华孵化) |
| Insilico Medicine | 端到端生成模型 | 自研管线 + 部分合作 | 超4亿美元 |
| Atomwise | 卷积神经网络虚拟筛选 | 平台授权 | 约1.5亿美元 |
| Recursion Pharmaceuticals | 高通量实验 + 机器学习 | 自研管线 + 合作 | 超12亿美元(上市) |