技术深度解析
“Co-Scientist”系统构建于一种多智能体强化学习架构之上,集成了多个专用神经网络。其核心是一个图神经网络(GNN),该网络基于全部公开可用的基因组、转录组和蛋白质组数据(包括Human Cell Atlas、GTEx和ENCODE数据库)进行训练。GNN将基因-基因相互作用、蛋白质-蛋白质互作网络以及调控通路建模为一个包含超过2000万个节点和15亿条边的异构图。
假说生成模块: 与基于标注数据进行分类或预测的传统AI工具不同,Co-Scientist采用变分自编码器(VAE)来生成遗传扰动的全新组合。该VAE以已知的衰老标志物(p16INK4a、p21、SA-β-gal)为条件,并经过训练以提出能够最小化这些标志物、同时最大化细胞增殖指标的基因敲低或过表达靶点。系统使用近端策略优化(PPO)算法来平衡探索(提出真正新颖的靶点)与利用(优化已知通路)。
实验设计与验证闭环: AI并不止步于预测。它会输出一份排名靠前的候选基因列表,并附上推荐的实验方案——包括具体的CRISPR-Cas9引导RNA、最佳细胞系(IMR-90成纤维细胞、HUVECs)以及检测终点。随后,系统会从自动化液体处理机器人和高内涵成像平台摄取实时结果,在闭环反馈中更新其内部模型。这一主动学习循环全天候运行,AI会根据先前实验的结果调整其下一组假说。
性能基准测试: 该系统与50名拥有衰老生物学博士级专业知识的人类研究人员组成的基线团队进行了对比评估。每个团队的目标相同:识别能够逆转人类成纤维细胞衰老的遗传因子。
| 指标 | 人类团队(平均) | AI Co-Scientist | 提升倍数 |
|---|---|---|---|
| 首次验证命中时间 | 14个月 | 6周 | 9.3倍 |
| 识别的新颖靶点数量(文献中未报道) | 0.7 | 12 | 17倍 |
| 验证成功率(体外确认) | 38% | 72% | 1.9倍 |
| 每个验证靶点的成本 | 210万美元 | 18万美元 | 11.7倍 |
| 假阳性率 | 62% | 28% | 降低2.2倍 |
数据要点: AI不仅极大地加速了发现过程,而且产出了更高质量的命中靶点,假阳性率也更低,这表明其假说生成比单纯的人类直觉更根植于潜在的生物学机制。
相关开源组件: 虽然完整的Co-Scientist系统是专有的,但其底层技术借鉴了公开可用的代码库。BioBERT模型(HuggingFace,月下载量超过1200万次)提供了挖掘科学文献的自然语言处理骨干。DeepPurpose库(GitHub,5200星)利用深度学习进行药物-靶点相互作用预测。CellOracle代码库(GitHub,1800星)专注于从单细胞RNA-seq数据推断基因调控网络——这是模拟衰老轨迹的关键组件。
关键参与者与案例研究
Co-Scientist由Insilico Medicine的跨学科团队开发,该公司自2014年以来一直处于AI驱动药物发现的前沿。Insilico此前因使用生成式AI设计用于纤维化和癌症的新型分子而备受关注。其整合了多组学数据与深度学习的PandaOmics平台是此项工作的基础。首席架构师Alex Zhavoronkov博士长期以来一直主张,AI不应仅仅寻找模式,而应生成可检验的假说——这一愿景如今得到了验证。
竞争方法: 其他几个组织也在追求AI驱动的靶点发现,但尚未有任何一个在衰老生物学领域展示出从假说到验证的端到端能力。
| 组织 | 方法 | 关键平台 | 发展阶段 |
|---|---|---|---|
| Insilico Medicine | 多智能体RL + VAE | Co-Scientist | 体外验证,12个新颖靶点 |
| Recursion Pharmaceuticals | 高内涵成像 + 机器学习 | Recursion OS | 纤维化临床试验 |
| DeepMind (Isomorphic Labs) | AlphaFold + 扩散模型 | AlphaProteo | 蛋白质设计,非靶点发现 |
| BioAge Labs | EHR + 蛋白质组学分析 | — | 抗衰老药物临床试验 |
| Altos Labs | 湿实验室 + 计算生物学 | — | 早期阶段,非AI优先方法 |
数据要点: Insilico的端到端能力——从假说生成到实验验证——赋予其独特的竞争护城河。Recursion擅长表型筛选,但不会生成新的生物学假说。DeepMind专注于蛋白质结构,而非细胞功能。BioAge依赖观察性数据,而非因果扰动。
案例研究:FOXO4-p21轴