技术深度解析
核心问题在于LLM处理结构化表格数据的方式与传统机器学习模型(如XGBoost)截然不同。LLM将表格行token化为文本序列——例如“age: 65, blood_pressure: 140/90, diagnosis: diabetes”。自注意力机制随后计算所有token对之间的关系,但这本质上是一种基于语言的模式匹配练习,而非结构化的数值推理过程。当患者血压为140/90时,LLM可能基于训练语料中的文本共现将其与高血压关联,但它缺乏XGBoost从特征梯度中学到的明确决策边界。
相比之下,XGBoost构建了一个决策树集成,每个分裂点基于特征阈值(例如blood_pressure > 130)。这提供了固有的不确定性量化:模型置信度与同意某一预测的树的比例成正比。而LLM通过softmax概率在token logits上生成置信度分数,这些分数以校准不良著称——尤其是对于分布外输入。
该研究使用了归因方法(LLM采用Integrated Gradients,XGBoost采用SHAP)来比较每个模型在给定预测中认为重要的特征。他们发现LLM经常将高重要性分配给无关特征(例如患者ID编号),同时忽略临床关键特征(例如化验结果趋势)。这种“归因偏差”直接衡量了认知盲区。
| 模型 | 参数数量 | MMLU分数 | 临床表格F1 | 校准误差(ECE) | 归因偏差(与XGBoost对比) |
|---|---|---|---|---|---|
| Qwen 2.5 7B | 7.6B | 73.2 | 0.62 | 0.18 | 0.41 |
| XGBoost (默认) | — | — | 0.85 | 0.04 | — |
| GPT-4o (零样本) | ~200B (估计) | 88.7 | 0.71 | 0.12 | 0.33 |
| Med-PaLM 2 | ~340B (估计) | 86.5 | 0.78 | 0.09 | 0.27 |
数据要点: 表格显示模型大小与临床表格数据校准误差之间存在明显的负相关——更大的模型表现更好,但仍远逊于XGBoost。最关键的是,即使GPT-4o和Med-PaLM 2的归因偏差分数也高于0.25,意味着它们频繁依赖与黄金标准树模型不同的特征。这表明盲区并非规模问题,而是基础架构的固有局限。
一个相关的开源项目是TableLLM仓库(github.com/tablellm/table-llm,约2.5k星标),它尝试专门针对表格推理微调LLM。然而其基准测试显示,即使在专门训练后,校准误差在临床数据集上仍比梯度提升模型高2-3倍。另一个仓库UncertaintyToolkit(github.com/uncertainty-toolkit/uncertainty-toolkit,约1.8k星标)提供了量化LLM预测置信度的方法,但其技术(温度缩放、蒙特卡洛dropout)尚未在结构化临床数据上得到验证。
关键参与者与案例研究
该研究直接对比了Qwen 2.5 7B(由阿里云开发)与XGBoost(最初由陈天奇开发,现由DMLC维护)。Qwen 2.5是一个强大的开源LLM系列,但其训练数据主要是网络文本和代码,而非结构化临床表格。而XGBoost多年来一直是临床预测模型的主力——用于英国生物样本库风险计算器和许多医院EHR分析管道等系统。
多家公司正积极开发基于LLM的临床决策支持系统:
| 公司/产品 | 方法 | 临床表格性能(F1) | 不确定性处理 | 监管状态 |
|---|---|---|---|---|
| Google Med-PaLM 2 | 微调LLM + 检索 | 0.78 | 置信度阈值化 | CE标志(欧洲) |
| Epic Systems (AI模块) | 混合:XGBoost + LLM用于笔记 | 0.88 | 集成不确定性 | FDA 510(k) 批准 |
| OpenAI (GPT-4o用于医疗) | 零样本LLM | 0.71 | 无内置校准 | 未获批 |
| Qwen 2.5 7B (研究) | 开源LLM | 0.62 | 仅softmax | 不适用 |
数据要点: Epic的混合方法——使用XGBoost处理结构化数据,仅将LLM用于非结构化临床笔记——取得了最高F1分数并已获得监管批准。这表明行业已开始转向“分而治之”策略,而非依赖LLM进行端到端临床推理。该研究的发现验证了这一架构选择:在未配备独立不确定性校准层的情况下,不应信任LLM进行基于表格的预测。
一个值得注意的案例是MIMIC-III临床数据库,研究人员曾尝试使用LLM预测院内死亡率。早期结果显示LLM达到了0.75的AUC——与XGBoost的0.82具有竞争力——但当分析置信度校准时,LLM在高置信度预测中的假阳性率高出34%。这导致某美国大型医院系统在2020年召回了一个试点部署。