技术深度解析
此次突破的核心在于一个用于新抗原预测的多阶段计算流程。该流程始于对患者肿瘤组织与健康组织进行全外显子组或RNA测序。通过差异分析识别出癌细胞特有的体细胞突变后,关键的算法魔法在下一步展开:预测哪些由突变衍生的肽段序列会被主要组织相容性复合体(MHC)分子呈递到细胞表面,并最终被T细胞识别。
这涉及两项主要的AI驱动任务:
1. MHC结合预测:传统机器学习模型(如NetMHCpan)已应用多年。然而,采用基于Transformer的模型与图神经网络的新架构正实现更高的预测精度。这些模型通过训练质谱洗脱配体数据,学习肽段序列与特定MHC等位基因(因人而异)之间的结合规则。
2. 免疫原性预测:并非所有能结合的肽段都具有免疫原性。第二层AI预测哪些由MHC呈递的肽段能真正引发强烈的T细胞反应。这是更复杂的难题,涉及考量肽段加工、T细胞受体识别概率及肿瘤微环境因素的模型。DeepImmuno与pMTnet等工具是此领域的前沿代表。
支撑此类工作的关键开源资源库是GitHub上的`opentargets/neoantigen-pipeline`。这个基于Nextflow的流程整合了从变异检测、肽段生成、MHC结合预测(使用NetMHCpan与MHCflurry)到免疫原性排序的顶尖工具,提供了一个可复现、模块化的框架,供研究人员(在此案例中是一位专注的个人)在云基础设施上部署。
这些流程的性能以其阳性预测值为衡量标准。近期基准测试显示其性能有显著提升。
| 预测工具 | 架构 | 平均AUC(MHC-I) | 平均AUC(MHC-II) | 核心创新 |
|---|---|---|---|---|
| NetMHCpan-4.1 | 人工神经网络 | 0.94 | 0.89 | 结合亲和力行业标准 |
| MHCflurry 2.0 | 人工神经网络集成 | 0.95 | 不适用 | 开源,整合抗原加工过程 |
| NetTCR-2.2 | 卷积神经网络 | 不适用 | 不适用 | 直接预测TCR-肽段相互作用 |
| DeepImmuno-CNN | 卷积神经网络 | 0.88(免疫原性) | 不适用 | 专注于免疫原性,而非仅结合 |
| BigMHC | Transformer(BERT风格) | 0.96+ | 0.93+ | 利用蛋白质语言模型理解上下文 |
数据洞察:从传统ANN模型向BigMHC等基于Transformer的架构转变,正在AUC指标上带来虽微小但关键的提升。这直接意味着验证所需的新抗原候选数量减少,疫苗成功率提高。NetTCR等能模拟完整免疫识别链(肽段-MHC-TCR)的工具的出现,代表了预测保真度的下一个前沿。
候选新抗原排序完成后,可通过合成多肽、DNA质粒或mRNA序列等多种方式构建疫苗。AI的输出本质上成为合成的序列清单。
关键参与者与案例研究
此案例存在于一个由生物技术公司、科技巨头和学术实验室构成的快速演进生态系统中,各方正竞相将AI应用于药物发现并实现其操作化。
* BioNTech与Moderna:这两家公司虽以COVID-19疫苗闻名,但在个性化癌症疫苗领域均有深厚布局。BioNTech的iNeST平台与Moderna同默沙东合作的mRNA-4157疫苗已进入II/III期临床试验。其技术路径与此案例相似,但处于大规模工业化生产阶段。
* NVIDIA:通过其Clara Discovery套件与BioNeMo框架,NVIDIA为Recursion Pharmaceuticals和Generate:Biomedicines等公司提供了必需的GPU加速计算平台与预训练模型,以运行大规模虚拟筛选与生成式生物学实验。
* Generate:Biomedicines与Absci:这两家是纯粹的生成式AI生物技术公司。Generate使用专有模型从头生成新型治疗性蛋白质,而Absci的平台则实时整合湿实验室验证数据,在“设计-构建-测试”循环中训练其AI。
* Freenome与GRAIL:在诊断相关领域,这些公司利用AI分析血液样本中的多组学数据(游离DNA、甲基化模式、蛋白质生物标志物)以实现早期癌症检测,为未来的个性化癌症疫苗构建患者识别漏斗。
针对兽医学领域,专门的公司正在涌现:
* PetDx(OncoK9):利用新一代测序与基于AI的分类技术,为犬只提供液体活检癌症检测服务。
* Vidium Animal Health:近期推出了针对犬类癌症的分子图谱分析服务,提供基因组