MolClaw层级技能树:终结AI在药物研发管线中的崩溃困局

arXiv cs.AI April 2026
来源:arXiv cs.AI归档:April 2026
MolClaw是一款自主AI智能体,通过层级化技能树调度30余种专业计算工具,覆盖药物分子评估、筛选与优化全流程。与以往在多步复杂任务中频频崩溃的智能体不同,MolClaw通过将全局目标与局部工具执行解耦,实现了稳健的性能表现。

药物研发管线长期以来一直是AI智能体的“坟场”。挑战并非缺乏强大的分子预测算法,而是智能体无法可靠地串联数十种工具——性质预测器、对接模拟器、合成可及性评分器——而不丢失上下文或累积致命错误。由清华大学与上海人工智能实验室研究人员开发的MolClaw,直接针对这一架构性缺陷发起攻坚。MolClaw并未发明新的分子模型,而是引入了一个层级化技能树:顶层规划器定义全局优化目标(例如“找到一种对靶点X具有高亲和力、低毒性且合成可及性高的分子”),而专门的子智能体则负责处理各项具体任务。

技术深度解析

MolClaw的核心创新在于其层级化技能树架构,它从根本上重新思考了AI智能体如何管理长周期、多工具的工作流。该系统构建于三个层级之上:

1. 全局规划器层:一个大语言模型(LLM)担任执行主管。它接收高层药物设计目标(例如“优化分子X以适配靶点Y,约束条件为logP < 5且合成可及性 > 0.7”)。规划器将此目标分解为一个有向无环子任务图。关键在于,它维护着一个持久的“全局状态”——即当前最优分子、其性质以及优化轨迹的结构化表征。这防止了智能体在多次工具调用后“遗忘”原始目标。

2. 技能树层:这是一个预定义的、静态的层级结构,包含30余种计算工具,按功能组织。该树的分支包括:
- 性质预测:工具如RDKit描述符、ADMET预测器(例如基于DeepPurpose的模型)以及量子化学计算器(例如用于快速构象生成的xTB)。
- 结合亲和力:分子对接工具(AutoDock Vina、Glide SP)、自由能微扰(FEP+)封装器以及机器学习评分函数(例如来自TorchDrug生态系统的函数)。
- 合成与可行性:通过AiZynthFinder进行的逆合成分析、合成可及性评分(SAScore)计算器以及反应产率预测器。
- 多样性与新颖性:Tanimoto相似性聚类、骨架跃迁算法以及生成模型采样器(例如JT-VAE、GraphGA)。

3. 子智能体执行器:技能树中的每个叶节点都是一个轻量级子智能体。它们并非完整的LLM,而是执行单一工具并返回结构化结果(例如包含预测IC50值及置信区间的JSON)的专用脚本或微调模型。这些子智能体是无状态的——这是有意为之——它们不携带先前调用的上下文,从而防止幻觉漂移。

关键的算法洞见在于“上下文门控”机制。 当全局规划器选择技能树的某个分支时,它仅将相关的分子表征(例如SMILES字符串加当前性质向量)传递给子智能体。子智能体的输出随后通过一个“状态融合”模块合并回全局状态,该模块利用学习到的注意力机制来权衡每个工具输出的可靠性。如果某个工具失败(例如由于无效构象导致对接模拟崩溃),规划器会收到一个“失败信号”,并可以重试同一分支中的不同工具,或者完全重新路由至另一种优化策略。这与之前的智能体(如DrugAgent或基于ChemBERTa的系统)形成鲜明对比,在那些系统中,单个工具失败会级联成整个工作流的崩溃。

基准性能:团队在MolOpt基准上评估了MolClaw,该基准包含50个多目标药物优化任务(例如在降低hERG毒性并保持溶解度的同时提高亲和力)。结果与三个基线进行了对比:

| 智能体 | 成功率 (%) | 平均优化步数 | 工具故障恢复率 (%) | 每任务平均耗时 (分钟) |
|---|---|---|---|---|
| MolClaw | 72.3 | 14.2 | 89.1 | 18.4 |
| DrugAgent (SOTA) | 34.1 | 22.7 | 41.3 | 35.2 |
| 基于ReAct的智能体 | 18.9 | 31.5 | 22.8 | 52.1 |
| 单一LLM (GPT-4) | 11.2 | 45.0 | 15.6 | 68.3 |

数据要点:MolClaw的成功率是此前最佳智能体的两倍以上。关键指标是“工具故障恢复率”——MolClaw能从89%的局部工具故障中恢复,而DrugAgent仅能恢复41%。这直接验证了层级化设计的鲁棒性。平均每任务耗时也减半,因为全局规划器不会在每次错误后浪费周期从头重新规划。

相关开源仓库
- TorchDrug (github.com/DeepGraphLearning/torchdrug):一个基于PyTorch的药物发现平台。MolClaw使用了TorchDrug的分子特征化功能以及一些预训练的性质预测模型。该仓库拥有超过2500颗星。
- AiZynthFinder (github.com/MolecularAI/aizynthfinder):一个开源的逆合成规划工具。MolClaw将其集成用于合成可行性检查。星数:约900。
- Open Babel (github.com/openbabel/openbabel):用于文件格式转换和构象生成。星数:约2800。

该团队尚未开源MolClaw本身,但架构描述已足够详细以供复现。

关键参与者与案例研究

MolClaw由清华大学计算机科学与技术系与上海人工智能实验室的跨机构团队共同开发。第一作者李伟博士此前曾在微软亚洲研究院从事分子生成的强化学习研究。该项目值得注意之处在于其聚焦于系统工程而非模型创新。

更多来自 arXiv cs.AI

ToolSense 揭示大模型工具检索的隐藏盲区:AI 可靠性迎来新标杆随着大语言模型从回答问题转向通过调用工具执行操作,一个关键瓶颈浮出水面:模型究竟如何记住并检索工具?传统的基于嵌入的检索方法,由于编码器语义浅层化,在处理专业工具时常常失效。参数化工具检索——将每个工具编码为虚拟令牌,并对 LLM 进行微调ToM-U框架:让AI真正理解人类信念的数学公式心智理论效用(ToM-U)框架标志着AI社会智能研究的关键转折点——从模仿共情转向数学建模另一个智能体如何知道它所知道的内容。传统大语言模型能生成看似共情的回应,但缺乏对他人认知状态的底层表征:它们不知道对方知道什么、不知道什么、或被误导了DAF-AGI框架:用设计科学终结AGI定义之争AI社区长期以来陷入“盲人摸象”的困境:同一个系统,根据不同的测试标准,既可以被宣布为“AGI已实现”,也可以被判定为“离AGI还很远”。DAF-AGI框架植根于设计科学研究(DSR)方法论,提出一个根本性的转变:不再追问“AGI何时到来?查看来源专题页arXiv cs.AI 已收录 457 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

ToolSense 揭示大模型工具检索的隐藏盲区:AI 可靠性迎来新标杆ToolSense 是一款全新的诊断框架,能够系统性地揭露大语言模型在参数化工具检索中的隐藏盲区。通过精准定位模型究竟是真正理解工具,还是仅仅在机械记忆,ToolSense 为 AI 代理系统的可靠性设立了全新标准。ToM-U框架:让AI真正理解人类信念的数学公式全新框架“心智理论效用”(ToM-U)以形式化计算手段,让AI建模他人的信念。通过构建追踪信息来源、传递顺序与可信度的局部认知世界模型(LEWM),它从表面共情迈向对认知状态的真正理解。DAF-AGI框架:用设计科学终结AGI定义之争一个名为DAF-AGI的新框架,运用设计科学方法论,试图终结关于AGI定义的长期争论。它要求所有利益相关者在声称实现AGI之前,必须先给出可操作的定义,并提供一套二阶机制来裁决相互矛盾的断言。这一框架或将重塑AI基准测试、监管政策乃至模型发临床大模型新基准:从准确率到接受率,医生为何频频“拒单”?临床大语言模型在基准测试中表现亮眼,却在真实诊疗场景中屡遭医生“拒用”。一项全新评估框架将“用户拒绝风险”作为核心指标,为模型信任度与部署安全提供了可量化的路径。

常见问题

这次模型发布“MolClaw's Hierarchical Skill Tree Ends AI Breakdown in Drug Discovery Pipelines”的核心内容是什么?

The drug discovery pipeline has long been a graveyard for AI agents. The challenge is not a lack of powerful molecular prediction algorithms, but the inability of agents to reliabl…

从“MolClaw hierarchical skill tree architecture explained”看,这个模型发布为什么重要?

MolClaw's core innovation is its hierarchical skill tree architecture, which fundamentally rethinks how an AI agent manages long-horizon, multi-tool workflows. The system is built on three layers: 1. Global Planner Layer…

围绕“MolClaw vs DrugAgent benchmark comparison”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。