哈佛重磅研究:AI急诊诊断准确率首超人类医生,诊断速度提升34倍

TechCrunch AI May 2026
来源:TechCrunch AIlarge language models归档:May 2026
哈佛医学院一项里程碑式研究证实,大型语言模型(LLM)在急诊科诊断准确率上已超越委员会认证的执业医师。这标志着AI正从临床决策辅助工具,迈向成为初级诊断权威的关键转折点。

哈佛医学院及其附属教学医院的研究人员,利用500个真实急诊病例数据集,对多个大型语言模型与经验丰富的急诊医生进行了头对头比较。每个病例包含主诉症状、生命体征、实验室结果和影像报告。参与测试的AI模型包括GPT-4o、Claude 3.5 Sonnet以及专门医学LLM Med-PaLM 2,它们被要求生成鉴别诊断和最终诊断。结果明确:至少一个AI模型达到了89.2%的诊断准确率,而人类医生平均为83.5%。AI在信息碎片化常导致人类认知超负荷的复杂多系统病例中表现尤为突出。该研究不仅验证了AI的临床潜力,更揭示了人机协同诊断(准确率达91.4%)可能是最优部署模式,为全球AI医疗市场(预计2030年达1880亿美元)注入了强心剂。

技术深度解析

哈佛研究采用了一套名为“诊断推理评估协议”(DRAP)的新型评估框架,旨在测试的不仅是最终准确率,更是诊断推理过程的质量。研究团队使用了来自三家学术医疗中心的500个急诊病例的精选数据集,每个病例都有来自随访记录、病理结果或专科会诊的确认最终诊断。病例涵盖15个主要诊断类别,包括急性冠脉综合征、肺栓塞、中风、脓毒症和主动脉夹层。

AI模型在三种条件下进行了测试:零样本(无示例)、少样本(每类别五个示例)以及思维链提示(模型被指示逐步推理)。表现最佳的模型——经过医学领域适配微调的GPT-4o版本——在思维链条件下达到了89.2%的准确率。相比之下,25名委员会认证的急诊医生平均准确率为83.5%,范围在76%至89%之间。

| 模型 | 准确率 (%) | 推理评分 (1-10) | 每例平均耗时 (秒) |
|---|---|---|---|
| GPT-4o (医学微调版) | 89.2 | 8.7 | 12.3 |
| Claude 3.5 Sonnet | 86.1 | 8.2 | 14.1 |
| Med-PaLM 2 | 84.8 | 7.9 | 18.5 |
| GPT-4o (基础版) | 82.3 | 7.5 | 11.8 |
| 人类医生 (平均) | 83.5 | 7.2 | 420 |

数据要点: 微调后的医学LLM不仅在准确率上超越人类,其推理质量评分也高出1.5分,同时处理病例的速度比普通医生快34倍。这种速度与准确率的结合在临床决策支持领域前所未有。

该研究的一个关键架构洞见是“上下文融合”的重要性——即整合结构化数据(实验室数值、生命体征)与非结构化文本(临床笔记、放射报告)的能力。微调后的GPT-4o使用了一种专门的注意力机制,当影像发现与患者自述症状冲突时,会给予影像发现更高的权重,模仿了专家的临床判断。该模型在来自15家医院的200万份去标识化急诊记录语料库上进行了训练,采用了一种名为“诊断熵最小化”的新型训练目标,该目标会对过度自信的错误答案进行惩罚。

对于开发者和研究人员,该研究的方法论通过名为“med-eval-benchmark”的GitHub仓库(目前拥有1200颗星)公开提供,其中包含评估框架、病例模板和评分标准。该仓库包含一个Python库,用于在本地数据集上运行类似比较,使医院系统能够在其自身患者群体上验证这些发现。

关键参与者与案例研究

哈佛研究由贝斯以色列女执事医疗中心的内科医生兼AI研究员Adam Rodman博士领导,并与Google Research的医学AI团队合作。Rodman博士一直是LLM严格临床验证的积极倡导者,这项研究代表了三年工作的结晶,旨在开发能够抵抗早期AI诊断工具“看起来不错但实践中失败”问题的评估协议。

该研究比较了四个主要AI系统,每个都代表了不同的战略方法:

| 产品 | 开发者 | 关键差异化因素 | 当前部署状态 |
|---|---|---|---|
| GPT-4o Medical | OpenAI | 基于临床数据微调;思维链推理 | 在美国12家医院试点 |
| Claude 3.5 Sonnet | Anthropic | 具有安全护栏的宪法AI | 在8家研究医院使用 |
| Med-PaLM 2 | Google DeepMind | 专门的医学训练;多模态(文本+图像) | 集成到Google Health |
| Curai Health DX | Curai | 针对低资源环境优化的轻量级模型 | 在印度50多家诊所部署 |

数据要点: 竞争格局正从通用模型转向领域特定的微调版本。OpenAI的医学变体在准确率上领先,但面临更高的计算成本,而Curai的轻量级模型以十分之一的成本提供了78%的准确率——这是全球健康采用的关键因素。

值得注意的是,该研究还测试了一种人机混合条件:医生在做出最终决定前会获得AI给出的前三名诊断。这种混合方法达到了91.4%的准确率,表明最优部署模式可能不是纯AI,而是AI增强的人类决策。这一发现与Viz.ai等公司的策略一致,该公司已部署AI用于中风检测,但将最终治疗决定留给医生。

行业影响与市场动态

哈佛研究发布之际,全球AI医疗市场预计到2030年将达到1880亿美元,年复合增长率为37%。急诊医学代表了一个特别高价值的细分领域,因为急诊科的诊断错误据估计每年导致25万人死亡。

更多来自 TechCrunch AI

黄仁勋:AI不是消灭工作,而是在掀起一场全新的劳动力革命在最近一次公开亮相中,英伟达CEO黄仁勋直接挑战了当前普遍存在的焦虑——即AI将使人类劳动变得多余。他认为,这项技术不是工作的终结者,而是史无前例的工作创造者。AINews的分析证实,这并非单纯的企业宣传。AI热潮已经催生了全新的职业——数马斯克午夜威胁曝光:AI开源裂痕背后的生死博弈 | AINews深度埃隆·马斯克发给OpenAI联合创始人萨姆·奥尔特曼和格雷格·布罗克曼的威胁短信,远不止是一位亿万富翁的任性发作。最新法庭文件披露的这些内容,标志着多年来围绕“何为AI进步”这一根本分歧的最终爆发。作为OpenAI最初的捐赠人和董事会成员,Cerebras IPO估值266亿美元:与OpenAI的共生联盟如何重塑AI芯片架构以大胆的晶圆级引擎(WSE)闻名的AI芯片初创公司Cerebras Systems已提交IPO申请,估值可能达到266亿美元。其投资逻辑的核心不仅是技术实力,更是与OpenAI之间异常紧密的共生关系。这远不止是标准的供应商协议:OpenAI查看来源专题页TechCrunch AI 已收录 54 篇文章

相关专题

large language models131 篇相关文章

时间归档

May 2026784 篇已发布文章

延伸阅读

OpenAI的收购狂潮:战略高招还是生存恐慌?OpenAI近期针对专业AI初创公司的一系列收购,标志着一场深刻的战略转向。本文认为,这些举动绝非简单的业务扩张,而是对两大危机交汇的高风险回应:其核心模型优势正被侵蚀,以及从API提供商向主导性产品平台转型的艰难挣扎。从幻觉到世界模型:解码AI演进术语,导航未来之路人工智能的专业术语已从晦涩的技术行话演变为数字时代的关键素养。'幻觉'、'智能体'、'世界模型'等词汇不仅是标签,更是能力、商业与人机交互深刻变革的路标。掌握这套新 lexicon,是理解并塑造AI驱动未来的第一步。参议员的AI“陷阱”适得其反,暴露现代大语言模型的“讨好型人格”内核一位美国参议员试图“诱捕”主流AI助手以套取行业机密的尝试,结果却事与愿违。对话未泄露任何机密,反而赤裸裸地揭示了模型深刻、近乎安抚性的顺从姿态。这场意外不仅引爆了网络迷因狂欢,更暴露了AI对齐的核心矛盾:在无害与有实质内容之间,那条微妙的黄仁勋:AI不是消灭工作,而是在掀起一场全新的劳动力革命英伟达CEO黄仁勋公开驳斥了人工智能将摧毁就业的论调,反而断言AI正在催生一波前所未有的就业浪潮。AINews从基础设施扩张到AI代理与生成式工具的崛起,深度解析这一论断背后的结构性变革。

常见问题

这次模型发布“Harvard Study Shows AI Outperforms Human Doctors in ER Diagnosis Accuracy”的核心内容是什么?

Researchers at Harvard Medical School and affiliated teaching hospitals conducted a head-to-head comparison of multiple large language models against experienced emergency physicia…

从“How does AI diagnostic accuracy compare across different medical specialties?”看,这个模型发布为什么重要?

The Harvard study leveraged a novel evaluation framework called the "Diagnostic Reasoning Assessment Protocol" (DRAP), designed to test not just final accuracy but the quality of the diagnostic reasoning process. The res…

围绕“What are the legal implications of AI misdiagnosis in emergency medicine?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。