技术深度解析
PathoSage的架构是对当前AI智能体系统普遍存在的“上下文污染”问题的直接回应。在典型的多智能体病理学流水线中,视觉编码器(例如,微调后的ViT或基于CLIP的模型)从全切片图像(WSI)中提取特征。这些特征随后被输入到大语言模型(LLM)主干中,该主干同时接收来自各种工具的输出:基因表达分析器、组织化学染色分类器、从医学文献中检索的检索增强生成(RAG)模块,以及已知病理通路的知识图谱。标准方法是将所有这些信息拼接成一个单一的提示上下文。问题在于,当基因表达工具提示高级别恶性肿瘤,但形态学特征显示良性模式时,LLM没有原则性的方法来解决冲突。它通常会平均处理这些信号,产生第三种选择的幻觉,或者干脆遵循最近或最冗长的输入。
PathoSage的核心创新是经验感知裁决(EAA)模块。这不是简单的加权平均或投票机制。相反,它是一个独立的、较小的Transformer模型(约13亿参数,基于开源架构),在病理学家决策日志的精选数据集上进行了训练。训练数据包括病理学家明确说明为何信任某条证据而非另一条的案例——例如,“我忽略了IHC染色结果,因为组织切片保存不佳,导致非特异性结合。”EAA模块学会为每个输入证据流分配一个置信度分数和一个可靠性标志。它通过分析元特征来实现这一点:证据的来源(例如,由哪个工具产生,该工具在类似病例上的历史准确性)、证据的内部一致性(例如,基因表达特征是否与该癌症亚型的已知形态相匹配),以及已知混杂因素的存在(例如,组织处理伪影、染色批次效应)。
一个关键的技术细节是PathoSage如何处理证据的时间动态。在真实的临床工作流程中,证据是顺序到达的:首先是H&E染色分析,然后是IHC结果,最后是基因组报告。EAA模块维护一个动态的“信念状态”,随着新证据的到来而更新。如果早期证据后来被更可靠的来源反驳,EAA模块可以追溯性地降低早期证据在最终决策中的权重。这模仿了人类“根据新数据修正”的认知过程。
一个概念重叠的相关开源项目是PathLLM仓库(目前在GitHub上约有1200颗星),它提供了一个将病理学视觉编码器与LLM结合的框架。然而,PathLLM缺乏明确的冲突解决机制。另一个相关项目是MedRAG(约800颗星),专注于医学问答的检索增强,但不处理多源矛盾。PathoSage的EAA模块可以作为插件集成到此类框架中。
| 基准测试 | PathoSage(带EAA) | 基线智能体(无EAA) | 人类病理学家(平均) |
|---|---|---|---|
| TCGA-BRCA(乳腺癌)准确率 | 94.2% | 87.1% | 95.8% |
| TCGA-LUAD(肺癌)准确率 | 91.5% | 83.4% | 93.0% |
| CAMELYON16(转移瘤)F1分数 | 0.89 | 0.78 | 0.92 |
| 平均决策时间(每张切片) | 12.4秒 | 9.8秒 | 45分钟 |
| 假阳性率(良性→恶性) | 2.1% | 6.8% | 1.5% |
数据要点: PathoSage将自身与人类病理学家的差距缩小到主要基准测试上的1-2个百分点以内,同时大幅降低了假阳性率——这是避免患者不必要的焦虑和侵入性后续检查的关键指标。与基线智能体相比,假阳性率降低了3.2倍,这是最具临床意义的结果。
关键参与者与案例研究
PathoSage的开发归功于一个跨机构团队,由哈佛医学院生物医学信息学系和麻省理工学院与哈佛大学博德研究所的研究人员领导。第一作者Elena Vasquez博士此前在Google Health从事深度学习中的不确定性量化研究。该团队与马萨诸塞总医院的病理学家合作,为EAA模块策划训练数据,涉及对超过15,000个病理学案例进行详细的“证据信任”标注。
有几家公司正在相邻领域运营。PathAI(总部位于波士顿,迄今已融资2.55亿美元)提供AI辅助病理诊断平台,但依赖单一的端到端模型,并未明确处理证据冲突。其产品PathAI Diagnostics已获得FDA对某些癌症类型的批准,但因“黑箱”问题而受到批评。Paige.ai(纽约,融资2亿美元)采用类似的单一模型方法,推出了Paige Prostate产品。