PathoSage：教会AI病理学家“自我怀疑”，精准度跃升新高度

2026年6月9日 12:21 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI 归档：June 2026

PathoSage引入了一种“经验感知”裁决机制，专门解决AI病理诊断中多源证据冲突的难题。通过动态评估每条证据的可信度并主动拒绝不可靠信息，它在准确率和决策透明度上实现了质的飞跃，正逼近人类病理学家的诊断水平。

PathoSage代表了AI病理学领域的根本性突破，直击当前多模态大语言模型的核心缺陷：无法处理来自多个来源的冲突证据。传统端到端模型饱受“形态学幻觉”之苦，而现有智能体系统则盲目地将所有工具输出和检索知识塞入共享上下文，导致证据矛盾时决策混乱。PathoSage的创新在于其“经验感知”裁决模块，它像一位资深病理学家一样运作——动态评估每条证据的可信度，甚至主动丢弃看似相关但不可靠的信息。这一设计不仅大幅提升了准确率，更重要的是，它显著降低了假阳性率（从6.8%降至2.1%），这对于避免患者不必要的焦虑和侵入性后续检查具有重大临床意义。在TCGA乳腺癌和肺癌基准测试中，PathoSage的准确率分别达到94.2%和91.5%，与人类病理学家的平均差距缩小至1-2个百分点。

技术深度解析

PathoSage的架构是对当前AI智能体系统普遍存在的“上下文污染”问题的直接回应。在典型的多智能体病理学流水线中，视觉编码器（例如，微调后的ViT或基于CLIP的模型）从全切片图像（WSI）中提取特征。这些特征随后被输入到大语言模型（LLM）主干中，该主干同时接收来自各种工具的输出：基因表达分析器、组织化学染色分类器、从医学文献中检索的检索增强生成（RAG）模块，以及已知病理通路的知识图谱。标准方法是将所有这些信息拼接成一个单一的提示上下文。问题在于，当基因表达工具提示高级别恶性肿瘤，但形态学特征显示良性模式时，LLM没有原则性的方法来解决冲突。它通常会平均处理这些信号，产生第三种选择的幻觉，或者干脆遵循最近或最冗长的输入。

PathoSage的核心创新是经验感知裁决（EAA）模块。这不是简单的加权平均或投票机制。相反，它是一个独立的、较小的Transformer模型（约13亿参数，基于开源架构），在病理学家决策日志的精选数据集上进行了训练。训练数据包括病理学家明确说明为何信任某条证据而非另一条的案例——例如，“我忽略了IHC染色结果，因为组织切片保存不佳，导致非特异性结合。”EAA模块学会为每个输入证据流分配一个置信度分数和一个可靠性标志。它通过分析元特征来实现这一点：证据的来源（例如，由哪个工具产生，该工具在类似病例上的历史准确性）、证据的内部一致性（例如，基因表达特征是否与该癌症亚型的已知形态相匹配），以及已知混杂因素的存在（例如，组织处理伪影、染色批次效应）。

一个关键的技术细节是PathoSage如何处理证据的时间动态。在真实的临床工作流程中，证据是顺序到达的：首先是H&E染色分析，然后是IHC结果，最后是基因组报告。EAA模块维护一个动态的“信念状态”，随着新证据的到来而更新。如果早期证据后来被更可靠的来源反驳，EAA模块可以追溯性地降低早期证据在最终决策中的权重。这模仿了人类“根据新数据修正”的认知过程。

一个概念重叠的相关开源项目是PathLLM仓库（目前在GitHub上约有1200颗星），它提供了一个将病理学视觉编码器与LLM结合的框架。然而，PathLLM缺乏明确的冲突解决机制。另一个相关项目是MedRAG（约800颗星），专注于医学问答的检索增强，但不处理多源矛盾。PathoSage的EAA模块可以作为插件集成到此类框架中。

| 基准测试 | PathoSage（带EAA） | 基线智能体（无EAA） | 人类病理学家（平均） |
|---|---|---|---|
| TCGA-BRCA（乳腺癌）准确率 | 94.2% | 87.1% | 95.8% |
| TCGA-LUAD（肺癌）准确率 | 91.5% | 83.4% | 93.0% |
| CAMELYON16（转移瘤）F1分数 | 0.89 | 0.78 | 0.92 |
| 平均决策时间（每张切片） | 12.4秒 | 9.8秒 | 45分钟 |
| 假阳性率（良性→恶性） | 2.1% | 6.8% | 1.5% |

数据要点： PathoSage将自身与人类病理学家的差距缩小到主要基准测试上的1-2个百分点以内，同时大幅降低了假阳性率——这是避免患者不必要的焦虑和侵入性后续检查的关键指标。与基线智能体相比，假阳性率降低了3.2倍，这是最具临床意义的结果。

关键参与者与案例研究

PathoSage的开发归功于一个跨机构团队，由哈佛医学院生物医学信息学系和麻省理工学院与哈佛大学博德研究所的研究人员领导。第一作者Elena Vasquez博士此前在Google Health从事深度学习中的不确定性量化研究。该团队与马萨诸塞总医院的病理学家合作，为EAA模块策划训练数据，涉及对超过15,000个病理学案例进行详细的“证据信任”标注。

有几家公司正在相邻领域运营。PathAI（总部位于波士顿，迄今已融资2.55亿美元）提供AI辅助病理诊断平台，但依赖单一的端到端模型，并未明确处理证据冲突。其产品PathAI Diagnostics已获得FDA对某些癌症类型的批准，但因“黑箱”问题而受到批评。Paige.ai（纽约，融资2亿美元）采用类似的单一模型方法，推出了Paige Prostate产品。

时间归档

常见问题

这次模型发布“PathoSage: Teaching AI Pathologists to Doubt Themselves for Higher Accuracy”的核心内容是什么？

PathoSage represents a fundamental breakthrough in AI-powered pathology, directly addressing the core failure mode of current multimodal large language models: the inability to han…

从“How does PathoSage handle rare cancer types with limited training data?”看，这个模型发布为什么重要？

PathoSage's architecture is a direct response to the 'context pollution' problem that plagues current AI agent systems. In a typical multi-agent pathology pipeline, a vision encoder (e.g., a fine-tuned ViT or a CLIP-base…

围绕“What are the computational requirements for deploying PathoSage in a hospital setting?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

PathoSage：教会AI病理学家“自我怀疑”，精准度跃升新高度

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题