技术深度解析
IMCBench在架构上与此前的医学AI基准截然不同。其核心创新在于多轮视觉锚定机制。每个对话轮次都与图像中的特定感兴趣区域(ROI)相关联,模型必须在多个轮次中一致地引用该ROI。例如,在一段关于胸部X光片的对话中,第一轮可能问:“描述右上叶的阴影。”第二轮问:“这个阴影是否有空气支气管征?”第三轮问:“与三个月前的旧片相比如何?”模型不仅要正确回答每个问题,还要在对话过程中保持对图像的连贯内部表征。
从技术上讲,这要求模型在视觉和语言模块之间拥有共享的交叉注意力记忆。目前大多数多模态LLM(如LLaVA-Med、Med-PaLM 2)使用简单的Q-Former或线性投影来对齐视觉特征与语言标记,但缺乏跨多轮追踪视觉引用的显式机制。IMCBench暴露了这一弱点:当模型被要求“放大”之前提到的结节时,它常常会丢失讨论的是哪个结节。
基准数据集本身构建得非常精细。它从12个公共医学图像库(包括MIMIC-CXR、CheXpert和IDRiD)中提取数据,并添加了8,000个专家标注的多轮对话。每个对话平均有5.3轮,最多15轮。标注过程涉及6个专科的45名委员会认证医生。评估指标是多维度的:
| 指标 | 描述 | 最终得分权重 |
|---|---|---|
| 轮次准确率 | 每轮单个回答的正确性 | 30% |
| 视觉一致性 | 模型是否在多个轮次中引用同一图像区域 | 25% |
| 推理连贯性 | 从初始发现到最终诊断的逻辑流程 | 25% |
| 幻觉率 | 图像不支持的主张所占百分比 | 20% |
数据要点: 视觉一致性和推理连贯性合计占得分的50%——这不是对孤立知识的测试,而是对持续临床推理的考验。仅优化轮次准确率的模型将会失败。
在开源方面,IMCBench团队已在GitHub上发布了配套评估工具包(仓库:`IMCBench/eval-toolkit`,上线首周获得1200多颗星)。它包含一个轻量级模拟器,可以在任何兼容HuggingFace的模型上运行推理,并生成完整的多轮评估报告。这对研究社区来说是一个重要的推动力。
关键参与者与案例研究
IMCBench计划由来自斯坦福大学AIMI实验室、麻省理工学院CSAIL以及中国科学院自动化研究所的跨机构团队领导。但真正的行动在于那些模型正在接受压力测试的公司。
Google DeepMind 最为积极。他们的Med-PaLM 2模型在USMLE上获得了86.5%的分数,但在IMCBench上仅取得了52.3%的总分——这是一个巨大的下滑。DeepMind随后宣布了一种新架构Med-Gemini,它包含一个专用的视觉记忆模块。早期内部结果显示,在IMCBench上提升了15个百分点,但该模型尚未公开发布。
OpenAI 则较为沉默。带有视觉功能的GPT-4o在IMCBench上获得了58.1%的分数,在视觉一致性方面尤其薄弱(42%)。OpenAI尚未公开评论,但内部消息人士表示,他们正在探索一种“带有视觉锚点的思维链”提示策略,而不是改变模型架构。
Anthropic的Claude 3.5 Sonnet 获得了61.4%的分数,是闭源模型中最高的,这主要归功于其强大的推理连贯性。然而,它在多图像比较方面仍然存在困难(例如,将当前CT与之前的CT进行比较)。
| 模型 | IMCBench总分 | 轮次准确率 | 视觉一致性 | 幻觉率 |
|---|---|---|---|---|
| Claude 3.5 Sonnet | 61.4% | 68.2% | 55.1% | 12.3% |
| GPT-4o | 58.1% | 65.0% | 42.0% | 15.7% |
| Med-PaLM 2 | 52.3% | 60.5% | 38.9% | 18.2% |
| LLaVA-Med(开源) | 41.7% | 52.1% | 29.4% | 22.1% |
数据要点: 没有模型超过62%的总分。闭源和开源模型之间的差距为10-20个百分点,但即使是最好的模型也远未达到临床部署的准备状态。超过10%的幻觉率对于诊断用途来说是不可接受的。
一个值得注意的案例是PathAI,一家专注于病理学AI的公司。他们将IMCBench整合到内部验证流程中,并发现他们的模型在单张切片分类上表现良好,但当被要求在关于活检的多轮对话中追踪特定细胞簇时却失败了。他们目前正在重新设计其Transformer架构,以包含一个时间注意力层,该层可以显式地将对话步骤中的视觉标记连接起来。
行业影响与市场动态
IMCBench正在重塑竞争格局。