技术深度解析
大型语言模型的置信度校准问题,根源在于训练目标与实际部署之间的根本性错配。当前模型主要针对下一个词元预测准确率进行优化,并通过人类反馈强化学习(RLHF)使输出与人类偏好对齐。这两个目标都没有明确惩罚过度自信或奖励校准良好的不确定性。
在架构层面,Transformer的softmax输出层生成词元上的概率分布,但这些概率并非认知不确定性的真实度量。它们代表模型根据其训练分布对下一个词元的最佳猜测,而非对答案是否正确经过良好校准的评估。研究发现,即使底层推理存在缺陷,模型也倾向于给词元分配高softmax概率,因为训练数据中包含大量自信语言与正确答案相关联的示例。
几个开源项目已尝试解决这一问题。"CalibratedLM" 仓库(github.com/calibrated-lm/calibrated-lm,约1.2k星)提出了一种事后温度缩放方法,根据验证集表现调整softmax输出。另一个项目 "Uncertainty-Aware LLM"(github.com/ua-llm/ua-llm,约800星)在推理时使用蒙特卡洛dropout生成多个预测,并将方差作为不确定性的代理指标。然而,这些方法只是治标不治本。
该研究的方法论值得审视。研究人员采用了预注册设计,包含5000个问题,分为三个难度级别,并按模型表现分层。他们使用预期校准误差(ECE)和Brier分数这两个来自概率预测文献的标准指标来衡量校准效果。关键发现是:所有测试模型在难题上的ECE比简单题高出3到5倍。
| 模型 | 简单题ECE | 中等题ECE | 难题ECE | 总体Brier分数 |
|---|---|---|---|---|
| GPT-4o | 0.04 | 0.12 | 0.28 | 0.15 |
| Claude 3.5 Sonnet | 0.03 | 0.09 | 0.25 | 0.13 |
| Gemini 1.5 Pro | 0.05 | 0.14 | 0.31 | 0.18 |
| Llama 3 70B | 0.06 | 0.16 | 0.35 | 0.21 |
数据要点: 所有模型在难题上的校准误差都急剧增加,其中Llama 3 70B表现最差。即使是最好的模型(Claude 3.5),其难题ECE也达到0.25,意味着其置信度平均与实际准确率相差25个百分点。这对于高风险部署来说是不可接受的。
根本原因似乎在于训练数据本身。模型从人类撰写的文本中学习,而这些文本即使出错也普遍语气自信。网络论坛、学术论文和新闻文章很少使用模糊措辞。模型将这种过度自信的风格内化为“优质”输出的特征。此外,RLHF训练通常奖励有帮助、果断的回复,而非不确定的回复,进一步加剧了这种偏差。
关键参与者与案例研究
校准问题并未被主要AI实验室忽视,尽管它们的应对方法差异显著。OpenAI已发表关于"instructGPT"和"constitutional AI"的研究,但尚未公开发布GPT-4o的校准置信度分数。Anthropic更为透明,发布了一篇关于"Honest AI"的论文,提出训练模型在答案旁输出置信区间。Google DeepMind尝试了Gemini的集成方法,但这些方法计算成本高昂。
一个值得关注的案例是医疗AI初创公司 Hippocratic AI,该公司构建用于医疗保健的LLM。他们公开表示校准是首要任务,并使用包含校准损失项的自定义训练流程。早期结果显示,与现成模型相比,ECE降低了40%,但代价是简单题准确率下降了15%。这种权衡是该领域的核心矛盾。
| 公司/产品 | 方法 | 校准方式 | 报告ECE(难题) | 准确率(难题) |
|---|---|---|---|---|
| OpenAI (GPT-4o) | 事后缩放 | 温度调优 | 0.28 | 72% |
| Anthropic (Claude 3.5) | 宪法AI + 置信度头 | 自定义训练 | 0.25 | 74% |
| Google DeepMind (Gemini) | 5模型集成 | 平均化 | 0.31 | 70% |
| Hippocratic AI (MedAssist) | 校准损失 + RLHF | 自定义流程 | 0.18 | 68% |
数据要点: Hippocratic AI的专门方法实现了最佳校准,但牺牲了准确率。这表明校准和准确率目前处于紧张状态,需要突破才能同时实现两者。
另一个关键参与者是 UC Berkeley 由Jacob Steinhardt教授领导的研究小组,他们发表了将这一问题推向聚光灯下的预注册研究。他们的工作对于将校准确立为独立于准确率的评估维度至关重要。他们还发布了一个基准测试套件,供其他研究人员评估其模型的校准性能。