AI制药的隐藏密钥：教会大模型顶尖化学家的“默会知识”

在AI制药这片拥挤的赛道上，清华大学智能产业研究院（AIR）正带来一种直击行业核心痛点的新范式：算法虽强，却对药学一窍不通。由聂再清教授领衔、孵化自清华AIR的初创公司“水木分子”，其目标并非用黑箱分子生成器取代药物化学家，而是构建一套“双轮驱动”系统，将大语言模型（LLM）紧密嵌入现有的药物开发流程。其核心洞察在于：药物发现中最宝贵的知识——资深科学家数十年积累的“药感”——极少被收录在公开数据集或学术论文中。通过将LLM嵌入专家化学家的日常工作流，从文献调研到合成路线设计，模型在持续的人机交互中习得那些无法言传的隐性经验。这一思路的突破性在于，它不再追求用AI完全替代人类专家，而是让AI成为能理解、能解释、能协作的“超级副驾驶”。水木分子已与恒瑞医药、百济神州等头部药企达成合作，通过数据共享与专家反馈机制，让模型在真实研发场景中不断进化。其开源的DrugChat基准测试（GitHub上约1200星）揭示了关键差距：即便是GPT-4o在该测试中准确率也仅为72%，而水木分子注入默会知识后的模型达到了89%。

技术深度解析

水木分子的“双轮驱动”架构，标志着对AI制药主流范式的重大偏离。大多数竞争对手，如Insilico Medicine或Recursion Pharmaceuticals，专注于端到端生成模型，从零开始提出全新分子结构。这些系统虽然强大，但常常产生在合成上不可行或具有毒性的分子——这些问题对经验丰富的药物化学家而言一目了然，对模型却隐而不见。

水木分子的方法本质不同。他们并非部署单一的巨型模型，而是采用模块化的专用LLM智能体系统，每个智能体针对药物发现管线的特定阶段进行微调。其核心创新在于一个位于预训练LLM与用户应用之间的“知识注入层”。这一层并非仅靠公开数据训练，而是通过一个与专家化学家的反馈循环持续更新：化学家们审阅模型的输出——建议的合成路线、预测的ADMET（吸收、分布、代谢、排泄、毒性）性质或文献摘要——并进行修正。这些修正随后通过基于人类反馈的强化学习（RLHF）用于微调模型，但有一个关键变体：奖励模型并非通用的偏好模型，而是基于化学家修正训练出的领域专用模型。

一个关键的技术细节是使用检索增强生成（RAG）将LLM锚定在企业的专有数据上。大多数制药公司拥有数十年的内部实验数据，这些数据从未进入ChEMBL或PubChem等公共数据库。水木分子的平台允许企业索引这些数据，并在模型进行预测时检索相关历史结果。例如，如果一位化学家询问一种新型激酶抑制剂的合成路线，模型会首先搜索公司内部的反应数据库，寻找类似的转化反应，然后再生成提案。

该团队还在GitHub上开源了一个专门的基准数据集DrugChat（目前约1200星），用于评估LLM在药理学、药物化学和监管科学领域回答10000多个专家策划问题的能力。该基准揭示了一个关键差距：即使是GPT-4o在DrugChat上的准确率也仅为72%，而水木分子微调后的模型达到了89%。

| 模型 | DrugChat准确率 | 合成路线接受率 | 毒性预测AUC-ROC |
|---|---|---|---|
| GPT-4o | 72% | 58% | 0.81 |
| Claude 3.5 Sonnet | 74% | 61% | 0.83 |
| 水木分子v1（仅公开数据） | 78% | 67% | 0.86 |
| 水木分子v2（注入默会知识） | 89% | 82% | 0.93 |

数据要点： DrugChat准确率提升11个百分点，合成路线接受率提升15个百分点，直接量化了注入专家化学家默会知识的价值。毒性预测AUC-ROC从0.86提升至0.93尤为显著，因为毒性预测中的假阴性是导致后期药物失败的主要原因之一。

关键玩家与案例研究

主要实体是水木分子（Shuimufenzi），一家从清华大学智能产业研究院（AIR）孵化的初创公司。聂再清教授领导该团队。聂再清是AI领域的知名人物，此前曾领导微软亚洲研究院的知识计算组，从事大规模知识图谱和自然语言理解研究。他的背景至关重要：他既理解纯AI的技术局限，也理解领域专家的实际需求。

该公司已与多家中国顶级制药公司合作，包括江苏恒瑞医药和百济神州，以部署其平台。这些合作不仅是商业交易，更是数据共享协议：制药公司提供其专有实验数据的访问权限，更重要的是，提供资深药物化学家时间来训练模型。

这与Insilico Medicine的策略形成鲜明对比。Insilico已筹集超过4亿美元，正在开发自己的药物管线。Insilico的方法风险更高、回报也更高：如果他们的AI发现了一款重磅药物，收益将是巨大的。但这也意味着他们与潜在客户竞争。水木分子的横向模式避免了这种冲突。他们是工具提供者，而非药物开发者。

另一个竞争对手是Atomwise，它使用卷积神经网络进行虚拟筛选。Atomwise在商业应用上一直举步维艰，部分原因是其模型是黑箱，无法解释其推理过程。水木分子基于LLM的方法本质上更具可解释性：模型可以生成自然语言解释，说明为什么预测某个分子具有毒性，并引用具体的结构警报或文献参考。

| 公司 | 方法 | 商业模式 | 融资情况 |
|---|---|---|---|
| 水木分子 | 双轮驱动LLM + 专家反馈 | 工具提供商（SaaS + 数据合作） | 未公开（清华孵化） |
| Insilico Medicine | 端到端生成模型 | 自研管线 + 部分合作 | 超4亿美元 |
| Atomwise | 卷积神经网络虚拟筛选 | 平台授权 | 约1.5亿美元 |
| Recursion Pharmaceuticals | 高通量实验 + 机器学习 | 自研管线 + 合作 | 超12亿美元（上市） |

时间归档

延伸阅读

常见问题

这次公司发布“AI Drug Discovery's Hidden Key: Teaching LLMs the Tacit Knowledge of Expert Chemists”主要讲了什么？

In the crowded field of AI-driven drug discovery, a new approach is emerging from Tsinghua AIR that directly addresses the industry's core failure: algorithms that are powerful but…

从“Shuimufenzi AI drug discovery tacit knowledge injection how it works”看，这家公司的这次发布为什么值得关注？

The 'dual-wheel drive' architecture of Shuimufenzi represents a significant departure from the dominant paradigm in AI drug discovery. Most competitors, such as Insilico Medicine or Recursion Pharmaceuticals, have focuse…

围绕“Nie Zaiqing Tsinghua AIR AI pharma startup background”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。