技术深度解析
百川在降低医疗AI事实性幻觉方面的路径,是对当前主流“堆参数、堆数据”范式的刻意背离。该公司转而采用数据精炼与定向强化学习相结合的策略。其架构基于一个基础模型——很可能是百川自家通用大语言模型的变体——但关键创新集中在训练后处理管线。
通过结构化知识库实现知识整合
抵御幻觉的第一层防线是整合结构化临床知识库。这并非简单的检索增强生成(RAG)系统去抓取文本片段。百川构建了一个经过精心筛选的医学事实数据库,涵盖药物相互作用表、症状-疾病映射关系、来自权威指南(如中华医学会和WHO等国际机构)的治疗方案,以及禁忌症矩阵。模型经过微调,将此知识库视为“地面真相”来源,并采用显式注意力机制,优先处理这些事实而非依赖生成式创造力。这相当于给模型配备了一本必须引用的教科书,而非要求其凭记忆作答。
专家反馈强化学习(RL)
第二个且更具创新性的组件是专家反馈强化学习。百川组建了一个由执业临床医生组成的评审团——涵盖内科、药理学和急诊医学专家——他们对模型输出进行事实准确性、临床合理性和安全性审查。模型采用一种基于人类反馈的强化学习(RLHF)变体进行训练,但有一个关键区别:奖励函数并非基于通用帮助性或连贯性,而是基于严格的事实正确性评分。当模型输出与知识库或临床医生的判断相矛盾时,它会收到强烈的负向奖励。经过数千次迭代,模型学会了抑制自己生成听起来合理但实际错误的陈述的倾向。
基准性能表现
为验证3.3%的幻觉率,百川很可能使用了内部基准测试和公开医疗问答数据集相结合的方法。虽然公司尚未公布完整细节,但在MedQA(USMLE风格问题)和PubMedQA等数据集上的可比评估显示,GPT-4和Claude 3.5等通用模型在医疗查询上的幻觉率通常在8%至15%之间。百川的3.3%意味着降低了60%-70%。
| 模型 | 幻觉率(医疗问答) | 参数量(估计) | 训练数据来源 |
|---|---|---|---|
| 百川医疗(新) | 3.3% | ~70B | 精选临床知识库 + 专家强化学习 |
| GPT-4o(通用) | 11.2% | ~200B | 通用互联网 + 医学语料 |
| Claude 3.5 Sonnet | 9.8% | — | 通用 + 过滤后医学数据 |
| Med-PaLM 2 | 6.5% | ~340B | 医学教科书 + 专家反馈 |
| 开源:BioMedLM | 14.1% | 2.7B | PubMed摘要 |
数据要点: 百川3.3%的幻觉率是已报道的生产级医疗大语言模型中的最低值,甚至超越了谷歌的Med-PaLM 2。这是用更小的模型实现的,表明数据质量和训练方法比原始规模更重要。
工程权衡
代价是专业化。通过将模型锚定在固定知识库上,百川牺牲了一定的知识广度。该模型在处理其精选数据库中未收录的罕见或新兴疾病时可能表现不佳。此外,专家强化学习过程成本高昂且速度缓慢,需要临床医生持续参与。这种方法在没有类似专家筛选的情况下,难以轻松扩展到其他领域。
相关开源项目
对于有兴趣探索类似技术的读者,有两个GitHub仓库值得关注:
- BioMedLM(斯坦福CRFM):一个基于PubMed摘要训练的2.7B参数模型。它证明了较小的模型也能实现合理的医疗问答性能,尽管幻觉率较高。
- MedAlpaca(密歇根大学):一个开源的医学指令微调数据集和模型。它采用了类似的专家精选方法,但缺少百川所使用的强化学习层。
关键参与者与案例研究
百川智能是这里的主要玩家,但竞争格局中还包括几个重要努力。
百川智能
由前搜狗CEO王小川创立,百川已从包括阿里巴巴和腾讯在内的投资者处筹集了超过7亿美元资金。该公司的战略是专注于垂直AI应用,医疗AI是其旗舰产品。王小川的公开声明强调,医疗AI必须比通用AI遵循更高标准,而3.3%的幻觉率正是这一理念的结果。
Google DeepMind(Med-PaLM 2)
Med-PaLM 2在医疗问答上实现了6.5%的幻觉率,但它的模型规模要大得多(估计约340B参数)。它同样整合了医学教科书和专家反馈,但百川在结构化知识库和强化学习方面的创新使其在幻觉控制上更进一步。
行业影响
百川的突破可能重新定义医疗AI的评估标准。过去,行业关注的是模型在考试题上的准确率;现在,一个可量化的“幻觉率”指标正在成为新的信任货币。对于医院和药企而言,3.3%意味着每100次回答中只有不到4次可能出错——虽然仍非完美,但已接近人类临床医生的误差范围(研究表明,人类医生在诊断中的错误率约为5%-15%)。这为AI辅助诊断、药物相互作用检查、临床决策支持等应用打开了大门。