技术深度解析
此次DIY疫苗背后的技术流程,展现了一种全新范式:AI增强型研究管线。它在机器学习的高度介入下,形成了从数据生成到治疗设计的循环闭环。
1. 文献综述与假设生成(ChatGPT阶段): 创始人将ChatGPT-4等大型语言模型用作超级研究助手。通过输入“总结近期犬类骨肉瘤新抗原研究论文”或“列出肽疫苗合成步骤”等指令,模型整合了数百万份生物医学文献的知识。其核心功能在于跨领域知识检索与流程转译——将碎片化研究转化为可执行方案。此阶段将传统需数月的“文献调研”压缩至数小时。
2. 靶点识别与生物信息学分析: 肿瘤DNA/RNA测序后,需通过分析原始数据识别肿瘤特异性突变(新抗原)。此时专业AI工具介入。虽具体工具未公开,但现有生态包含开源与商业选项:
* pVACseq(隶属pVACtools套件): 广泛使用的开源GitHub仓库(`griffithlab/pVACtools`),用于从测序数据中识别新抗原。其算法可预测哪些突变肽段能与患者MHC分子强结合——这是疫苗生效的关键步骤。
* MHCflurry与NetMHCpan: 用于预测MHC结合亲和力的开源工具,常被整合进pVACseq等流程。
* 商业平台: 如Tempus、Gritstone bio等公司使用专有AI模型提升新抗原预测精度,其考量因素超越单纯结合亲和力,涵盖肽段加工与免疫原性等维度。
此阶段的技术挑战在于预测准确性。并非所有预测的新抗原都能引发免疫反应。当前技术虽持续改进,但远未臻完美。
3. 疫苗设计与制备方案: 获得候选新抗原列表后,下一步是设计疫苗构建体。AI辅助优化了肽序列的稳定性与免疫原性。实际合成步骤很可能外包给肽合成公司(如GenScript)——这类服务现已可在线获取。所谓“DIY”主要体现在设计与制剂方案环节,而非化学合成本身。
AI在关键生物信息学任务中的表现:
| 工具/方法 | 任务 | 关键指标(典型表现) | 局限性 |
|---|---|---|---|
| NetMHCpan 4.1 | MHC-I结合预测 | 基准数据集AUC约0.92-0.95 | 对新MHC等位基因预测性能下降;无法预测免疫原性 |
| pVACseq | 新抗原优先级排序 | 每个肿瘤识别1-5个强候选靶点(差异较大) | 依赖上游突变检测准确性;组合搜索极为复杂 |
| AlphaFold2 | 蛋白质结构(用于抗原设计) | 高难度目标中位TM-score >0.7 | 对多链复合体或含突变结构的预测精度较低 |
| LLM(如GPT-4) | 文献综合 | 能回忆并关联约百万+生物医学摘要中的概念 | 易在事实细节上“幻觉”;缺乏真正理解力 |
数据启示: 上表显示AI擅长特定狭窄预测任务(结合亲和力、结构预测),但当被非专家串联使用时会产生“理解鸿沟”。整体系统可靠性取决于其最薄弱的概率环节,而LLM虽为强大合成器,却会引入事实不确定性。
关键参与者与案例研究
本事件处于多股趋势交汇处,由不同参与者共同推动。
赋能者(工具与平台):
* OpenAI(ChatGPT)、Anthropic(Claude)、Google(Gemini): 提供基础LLM,降低初始知识门槛。其角色是连接全球生物医学知识的对话界面。
* DNAnexus、Seven Bridges、Terra(博德研究所): 云端生物信息学平台,提供标准化、可扩展的基因组分析流程。它们是“生物科技界的AWS”,使强大算力与标准化工具触手可及。
* Benchling: 云端研发平台,兼具电子实验笔记本(ELN)与数据管理系统功能。正加速整合AI功能用于实验设计与数据分析,其目标正是本案展示的工作流。
先驱者(商业化AI驱动药物发现):
* Insilico Medicine: 利用生成式AI进行靶点发现与药物设计的领军者。其Pharma.AI平台使用生成对抗网络(GAN)设计新型分子结构,已将AI设计药物推进至人体临床试验阶段。
* Recursion Pharmaceuticals: 通过自动化细胞生物学与AI绘制疾病图谱并发现新治疗候选物。其