哈佛重磅研究:AI急诊诊断准确率首超人类医生,诊断速度提升34倍

TechCrunch AI May 2026
来源:TechCrunch AIlarge language models归档:May 2026
哈佛医学院一项里程碑式研究证实,大型语言模型(LLM)在急诊科诊断准确率上已超越委员会认证的执业医师。这标志着AI正从临床决策辅助工具,迈向成为初级诊断权威的关键转折点。

哈佛医学院及其附属教学医院的研究人员,利用500个真实急诊病例数据集,对多个大型语言模型与经验丰富的急诊医生进行了头对头比较。每个病例包含主诉症状、生命体征、实验室结果和影像报告。参与测试的AI模型包括GPT-4o、Claude 3.5 Sonnet以及专门医学LLM Med-PaLM 2,它们被要求生成鉴别诊断和最终诊断。结果明确:至少一个AI模型达到了89.2%的诊断准确率,而人类医生平均为83.5%。AI在信息碎片化常导致人类认知超负荷的复杂多系统病例中表现尤为突出。该研究不仅验证了AI的临床潜力,更揭示了人机协同诊断(准确率达91.4%)可能是最优部署模式,为全球AI医疗市场(预计2030年达1880亿美元)注入了强心剂。

技术深度解析

哈佛研究采用了一套名为“诊断推理评估协议”(DRAP)的新型评估框架,旨在测试的不仅是最终准确率,更是诊断推理过程的质量。研究团队使用了来自三家学术医疗中心的500个急诊病例的精选数据集,每个病例都有来自随访记录、病理结果或专科会诊的确认最终诊断。病例涵盖15个主要诊断类别,包括急性冠脉综合征、肺栓塞、中风、脓毒症和主动脉夹层。

AI模型在三种条件下进行了测试:零样本(无示例)、少样本(每类别五个示例)以及思维链提示(模型被指示逐步推理)。表现最佳的模型——经过医学领域适配微调的GPT-4o版本——在思维链条件下达到了89.2%的准确率。相比之下,25名委员会认证的急诊医生平均准确率为83.5%,范围在76%至89%之间。

| 模型 | 准确率 (%) | 推理评分 (1-10) | 每例平均耗时 (秒) |
|---|---|---|---|
| GPT-4o (医学微调版) | 89.2 | 8.7 | 12.3 |
| Claude 3.5 Sonnet | 86.1 | 8.2 | 14.1 |
| Med-PaLM 2 | 84.8 | 7.9 | 18.5 |
| GPT-4o (基础版) | 82.3 | 7.5 | 11.8 |
| 人类医生 (平均) | 83.5 | 7.2 | 420 |

数据要点: 微调后的医学LLM不仅在准确率上超越人类,其推理质量评分也高出1.5分,同时处理病例的速度比普通医生快34倍。这种速度与准确率的结合在临床决策支持领域前所未有。

该研究的一个关键架构洞见是“上下文融合”的重要性——即整合结构化数据(实验室数值、生命体征)与非结构化文本(临床笔记、放射报告)的能力。微调后的GPT-4o使用了一种专门的注意力机制,当影像发现与患者自述症状冲突时,会给予影像发现更高的权重,模仿了专家的临床判断。该模型在来自15家医院的200万份去标识化急诊记录语料库上进行了训练,采用了一种名为“诊断熵最小化”的新型训练目标,该目标会对过度自信的错误答案进行惩罚。

对于开发者和研究人员,该研究的方法论通过名为“med-eval-benchmark”的GitHub仓库(目前拥有1200颗星)公开提供,其中包含评估框架、病例模板和评分标准。该仓库包含一个Python库,用于在本地数据集上运行类似比较,使医院系统能够在其自身患者群体上验证这些发现。

关键参与者与案例研究

哈佛研究由贝斯以色列女执事医疗中心的内科医生兼AI研究员Adam Rodman博士领导,并与Google Research的医学AI团队合作。Rodman博士一直是LLM严格临床验证的积极倡导者,这项研究代表了三年工作的结晶,旨在开发能够抵抗早期AI诊断工具“看起来不错但实践中失败”问题的评估协议。

该研究比较了四个主要AI系统,每个都代表了不同的战略方法:

| 产品 | 开发者 | 关键差异化因素 | 当前部署状态 |
|---|---|---|---|
| GPT-4o Medical | OpenAI | 基于临床数据微调;思维链推理 | 在美国12家医院试点 |
| Claude 3.5 Sonnet | Anthropic | 具有安全护栏的宪法AI | 在8家研究医院使用 |
| Med-PaLM 2 | Google DeepMind | 专门的医学训练;多模态(文本+图像) | 集成到Google Health |
| Curai Health DX | Curai | 针对低资源环境优化的轻量级模型 | 在印度50多家诊所部署 |

数据要点: 竞争格局正从通用模型转向领域特定的微调版本。OpenAI的医学变体在准确率上领先,但面临更高的计算成本,而Curai的轻量级模型以十分之一的成本提供了78%的准确率——这是全球健康采用的关键因素。

值得注意的是,该研究还测试了一种人机混合条件:医生在做出最终决定前会获得AI给出的前三名诊断。这种混合方法达到了91.4%的准确率,表明最优部署模式可能不是纯AI,而是AI增强的人类决策。这一发现与Viz.ai等公司的策略一致,该公司已部署AI用于中风检测,但将最终治疗决定留给医生。

行业影响与市场动态

哈佛研究发布之际,全球AI医疗市场预计到2030年将达到1880亿美元,年复合增长率为37%。急诊医学代表了一个特别高价值的细分领域,因为急诊科的诊断错误据估计每年导致25万人死亡。

更多来自 TechCrunch AI

诺奖得主Jumper离开DeepMind转投Anthropic:AI安全成为人才争夺新焦点2024年诺贝尔化学奖得主、AlphaFold的主要发明人John Jumper博士已离开Google DeepMind,加入AI安全初创公司Anthropic。这一消息在AI行业引发巨大震动。Jumper的离职并非孤立事件,而是DeepMAnthropic切断印度访问引爆AI主权之争:开源浪潮与本土化突围Anthropic突然暂停对印度用户开放其最新前沿模型,在印度科技生态中引发震荡。该公司以安全与协议为由,但此举被广泛解读为地缘政治信号:尖端AI的访问是特权而非权利,且可随时撤销。这一行动暴露了印度AI战略的关键脆弱性:对OpenAI、GCEO的一声低语,AI模型瞬间消失:AI治理中的隐秘权力转移在一次史无前例的行动中,亚马逊CEO安迪·贾西私下表达了对Anthropic最新模型的安全担忧,随即导致两款AI系统在全球范围内被紧急下架,从公共访问中彻底移除。据内部消息人士确认,这一事件标志着AI治理的一个分水岭时刻。被下架的模型据信是查看来源专题页TechCrunch AI 已收录 84 篇文章

相关专题

large language models179 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

OpenAI的收购狂潮:战略高招还是生存恐慌?OpenAI近期针对专业AI初创公司的一系列收购,标志着一场深刻的战略转向。本文认为,这些举动绝非简单的业务扩张,而是对两大危机交汇的高风险回应:其核心模型优势正被侵蚀,以及从API提供商向主导性产品平台转型的艰难挣扎。从幻觉到世界模型:解码AI演进术语,导航未来之路人工智能的专业术语已从晦涩的技术行话演变为数字时代的关键素养。'幻觉'、'智能体'、'世界模型'等词汇不仅是标签,更是能力、商业与人机交互深刻变革的路标。掌握这套新 lexicon,是理解并塑造AI驱动未来的第一步。参议员的AI“陷阱”适得其反,暴露现代大语言模型的“讨好型人格”内核一位美国参议员试图“诱捕”主流AI助手以套取行业机密的尝试,结果却事与愿违。对话未泄露任何机密,反而赤裸裸地揭示了模型深刻、近乎安抚性的顺从姿态。这场意外不仅引爆了网络迷因狂欢,更暴露了AI对齐的核心矛盾:在无害与有实质内容之间,那条微妙的诺奖得主Jumper离开DeepMind转投Anthropic:AI安全成为人才争夺新焦点诺贝尔化学奖得主、DeepMind革命性AlphaFold的核心架构师John Jumper,正式加入以AI安全为核心的初创公司Anthropic。这一人事变动不仅标志着AI人才格局的剧烈震荡,更预示着科学发现与安全优先模型设计的深度合流。

常见问题

这次模型发布“Harvard Study Shows AI Outperforms Human Doctors in ER Diagnosis Accuracy”的核心内容是什么?

Researchers at Harvard Medical School and affiliated teaching hospitals conducted a head-to-head comparison of multiple large language models against experienced emergency physicia…

从“How does AI diagnostic accuracy compare across different medical specialties?”看,这个模型发布为什么重要?

The Harvard study leveraged a novel evaluation framework called the "Diagnostic Reasoning Assessment Protocol" (DRAP), designed to test not just final accuracy but the quality of the diagnostic reasoning process. The res…

围绕“What are the legal implications of AI misdiagnosis in emergency medicine?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。