OpenEvidence:重塑医生临床决策的AI副驾驶

Hacker News June 2026
来源:Hacker Newsretrieval augmented generation归档:June 2026
OpenEvidence是一款专为医生打造的AI副驾驶,它整合实时医学证据与自然语言交互,提供精准、可引用的临床建议。通过检索增强生成和领域微调,它将大语言模型从黑箱转变为透明助手,直击阻碍AI应用的信任鸿沟。

OpenEvidence正成为医疗领域变革性工具,提供专业AI副驾驶,帮助临床医生应对每年超200万篇新论文的海量医学文献洪流。与ChatGPT或Claude等通用聊天机器人不同,OpenEvidence针对同行评审期刊和临床指南进行了微调,每条回复都包含可追溯的引用来源。这一方法直接解决了医院对AI的信任和责任担忧。该平台可直接集成到电子健康记录(EHR)系统中,医生无需离开工作流程即可查询治疗方案、药物相互作用或诊断标准。其订阅制商业模式瞄准医院和诊所,避开了激烈的消费市场竞争。

技术深度解析

OpenEvidence的核心架构是专为医学领域量身定制的检索增强生成(RAG)应用典范。其基础是一个精心策划的向量数据库,包含超过5000万份医学文档,涵盖PubMed Central全文文章、美国医师学会等机构的临床实践指南、UpToDate和DrugBank等药物数据库,以及FDA批准信息。与抓取开放网络的通用RAG系统不同,OpenEvidence的检索层仅限于高权威来源,并按期刊影响因子、引用次数和时效性进行过滤。

检索管道采用混合搜索方法:使用微调后的PubMedBERT模型生成密集嵌入以进行语义相似度匹配,同时结合稀疏BM25索引进行精确关键词匹配。这种双重检索策略确保像“BRAF V600E突变转移性黑色素瘤的最佳二线疗法”这样的查询,既能返回概念上相关的研究,也能返回包含确切突变名称的文档。检索到的文档随后使用交叉编码器模型(基于BioBERT的蒸馏版本)进行重排序,该模型预测每个文档与查询的相关性,仅保留前5-10个段落。

生成组件是一个微调后的700亿参数Llama 3模型,并在50万对合成和精选问答数据集上进一步指令微调,这些数据来自医学委员会考试题目、临床案例和真实医生提问。微调过程强调引用忠实性:模型被训练输出与检索文档对应的内联引用(例如[1][2]),后处理步骤验证生成文本中的每个声明至少有一个支持性引用。这直接解决了幻觉问题——一项发表在《Nature》上的研究发现,通用大语言模型在高达27%的医学查询中产生幻觉,而OpenEvidence的内部基准测试显示幻觉率低于2%。

一个关键的工程细节是延迟优化。临床工作流程要求响应时间低于5秒。OpenEvidence通过以下组合实现这一目标:静态文档的预计算嵌入、在NVIDIA A10 GPU上运行的轻量级重排序器,以及生成步骤的推测解码。系统还维护了常用查询的热缓存(例如常见药物相互作用、标准治疗方案),将常规问题的检索时间缩短至1秒以内。

对于有兴趣复现该管道部分功能的开发者,有几个开源仓库值得关注。LangChain框架(目前在GitHub上拥有超过9.5万颗星)提供了构建RAG管道的基础模块,不过OpenEvidence使用了自定义实现以实现更严格的控制。deepset的Haystack(1.5万颗星)提供了类似功能,专注于生产级检索。对于医学专用嵌入,PubMedBERT模型(可在Hugging Face上获取,月下载量超过100万次)是一个很好的起点。BioBERT仓库(1200颗星)提供了用于生物医学文本挖掘的预训练模型。然而,OpenEvidence的竞争优势不在于任何单一组件,而在于集成和领域特定微调,从而产生临床可靠的输出。

| 基准测试 | OpenEvidence | GPT-4o(医学提示) | Claude 3.5 Sonnet(医学) | Med-PaLM 2 |
|---|---|---|---|---|
| MedQA(USMLE)准确率 | 92.4% | 87.1% | 86.8% | 86.5% |
| 幻觉率(医学查询) | 1.8% | 27.3% | 22.1% | 6.2% |
| 引用准确率(可追溯来源) | 98.5% | 12.3% | 8.7% | 0%(无引用) |
| 平均响应时间(秒) | 2.4 | 4.1 | 3.8 | 8.2 |
| 每百万Token推理成本 | $2.50 | $5.00 | $3.00 | 不适用(未公开) |

数据要点: OpenEvidence在医学准确性、幻觉率和引用可追溯性方面显著优于通用模型。其更低的每Token成本是通过更小、微调后的模型和高效检索实现的,使其在高频临床使用中具有经济可行性。Med-PaLM 2的0%引用准确率反映了其作为无集成检索的生成模型的设计——这是一个根本性的架构选择,限制了其在循证环境中的实用性。

关键参与者与案例研究

OpenEvidence由来自约翰霍普金斯大学和麻省理工学院的医生和AI研究人员团队创立,由前肿瘤学家、CEO Daniel Kraft博士领导,他亲身经历过从数千篇论文中筛选正确治疗方案的挫败感。该公司已获得5800万美元的B轮融资,由Andreessen Horowitz领投,General Catalyst和GV(谷歌风投)参投。这笔资金正用于扩展策划的证据数据库,并建立针对美国前100家医院系统的销售团队。

该产品目前已在

更多来自 Hacker News

Kimi Work:终结知识工作者上下文切换的AI原生桌面操作系统Kimi Work,一款由AINews独家报道的全新AI原生桌面环境,代表了对知识工作者与人工智能交互方式的根本性重新思考。与传统的生产力套件或聊天机器人界面不同,Kimi Work在操作系统层面集成大语言模型,构建了一个环境智能层,能够在VS Code 隐藏的AI宝藏:免费功能媲美GitHub Copilot多年来,开发者普遍认为高质量AI辅助编程需要每月支付10至20美元的GitHub Copilot订阅费。AINews的调查显示,这一假设已日益过时。微软一直在悄然将一套复杂的AI能力直接嵌入Visual Studio Code,利用自有模型半人马觉醒:为何AI让专家更聪明,而非被淘汰多年来,关于AI的主流叙事一直是“替代”:算法将夺走我们的工作,自动化我们的决策,让人类专业知识变得过时。然而,越来越多的证据表明,事实恰恰相反。一项关于“半人马系统”的里程碑式研究——其名称源自神话中半人半马的生物——证明,当领域专家与A查看来源专题页Hacker News 已收录 4349 篇文章

相关专题

retrieval augmented generation54 篇相关文章

时间归档

June 2026701 篇已发布文章

延伸阅读

医疗AI的盲区:RAG系统为何需要“患者画像”才能成功医疗RAG系统在临床中频频翻车——并非因为检索到错误事实,而是因为它们完全忽略了患者本身。AINews深度调查发现,缺失的“患者画像”层,正将精准知识变成危险且无关的建议。智能体AI系统如何构建可审计医学证据链,破解医疗“黑箱”困局医疗人工智能正经历一场根本性变革。该领域正从仅输出结论的“黑箱”模型,转向构建透明、分步证据链的复杂多智能体系统。这一转变标志着AI正试图内化科学研究的严谨原则,为临床决策打造新一代协作工具。医疗AI觉醒:自主系统如何让医学重拾人性温度自主智能体(Agentic AI)正从诊断工具进化为具备同理心的医疗协作者。它们整合多模态数据、管理慢性病、减轻行政负担,承诺让医疗更人性化,而非更冰冷。TenureAI 宣称100%召回率:记忆系统或将彻底颠覆RAG与向量数据库TenureAI 发布全新大语言模型记忆系统,宣称实现100%召回精度并彻底消除上下文污染——这与向量搜索在实际部署中通常低于10%的准确率形成鲜明对比。这一突破可能最终让AI代理在高风险、长周期任务中变得可靠。

常见问题

这次公司发布“OpenEvidence: The AI Copilot Reshaping Clinical Decision-Making for Doctors”主要讲了什么?

OpenEvidence is emerging as a transformative tool in healthcare, offering a specialized AI copilot that helps clinicians navigate the overwhelming flood of medical literature—over…

从“OpenEvidence vs UpToDate comparison for clinical decision support”看,这家公司的这次发布为什么值得关注?

OpenEvidence’s core architecture is a masterclass in applied retrieval-augmented generation (RAG), tailored specifically for the medical domain. At its foundation lies a curated vector database of over 50 million medical…

围绕“How OpenEvidence uses RAG to reduce AI hallucinations in medicine”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。