AI的过度自信危机：语言模型在犯错时为何如此危险地笃定

2026年5月26日 12:03 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI AI safety 归档：May 2026

一项预注册研究揭示，大型语言模型在应对难题时过度自信，而在简单任务上却信心不足，完美复刻了人类的认知偏差。这种校准失灵意味着模型可能以极高确信度给出错误答案，对医疗、法律和金融等高风险领域的AI部署构成直接威胁。

一项预注册研究揭开了当前一代大型语言模型令人不安的真相：它们在置信度校准上存在系统性的“难度效应”。面对棘手问题时，GPT-4o、Claude 3.5和Gemini 1.5 Pro等模型倾向于给错误答案分配高置信度分数，而在简单任务上却对正确答案表现出怀疑。这镜像了人类中广为人知的认知偏差，但在AI身上，它是架构和训练决策的产物，而非心理因素。

其影响深远。在医疗诊断、法律文件审查或金融风险评估等高风险领域，一个自信断言错误答案的AI远比一个不确定的AI危险得多。该研究使用了5000个问题，涵盖三个难度级别，并按模型表现分层。研究人员采用预期校准误差（ECE）和Brier分数这两个来自概率预测文献的标准指标来衡量校准效果。关键发现是：所有测试模型在难题上的ECE比简单题高出3到5倍。例如，表现最好的Claude 3.5在难题上的ECE为0.25，意味着其置信度平均与实际准确率相差25个百分点——这对于高风险部署来说是不可接受的。

技术深度解析

大型语言模型的置信度校准问题，根源在于训练目标与实际部署之间的根本性错配。当前模型主要针对下一个词元预测准确率进行优化，并通过人类反馈强化学习（RLHF）使输出与人类偏好对齐。这两个目标都没有明确惩罚过度自信或奖励校准良好的不确定性。

在架构层面，Transformer的softmax输出层生成词元上的概率分布，但这些概率并非认知不确定性的真实度量。它们代表模型根据其训练分布对下一个词元的最佳猜测，而非对答案是否正确经过良好校准的评估。研究发现，即使底层推理存在缺陷，模型也倾向于给词元分配高softmax概率，因为训练数据中包含大量自信语言与正确答案相关联的示例。

几个开源项目已尝试解决这一问题。"CalibratedLM" 仓库（github.com/calibrated-lm/calibrated-lm，约1.2k星）提出了一种事后温度缩放方法，根据验证集表现调整softmax输出。另一个项目 "Uncertainty-Aware LLM"（github.com/ua-llm/ua-llm，约800星）在推理时使用蒙特卡洛dropout生成多个预测，并将方差作为不确定性的代理指标。然而，这些方法只是治标不治本。

该研究的方法论值得审视。研究人员采用了预注册设计，包含5000个问题，分为三个难度级别，并按模型表现分层。他们使用预期校准误差（ECE）和Brier分数这两个来自概率预测文献的标准指标来衡量校准效果。关键发现是：所有测试模型在难题上的ECE比简单题高出3到5倍。

| 模型 | 简单题ECE | 中等题ECE | 难题ECE | 总体Brier分数 |
|---|---|---|---|---|
| GPT-4o | 0.04 | 0.12 | 0.28 | 0.15 |
| Claude 3.5 Sonnet | 0.03 | 0.09 | 0.25 | 0.13 |
| Gemini 1.5 Pro | 0.05 | 0.14 | 0.31 | 0.18 |
| Llama 3 70B | 0.06 | 0.16 | 0.35 | 0.21 |

数据要点： 所有模型在难题上的校准误差都急剧增加，其中Llama 3 70B表现最差。即使是最好的模型（Claude 3.5），其难题ECE也达到0.25，意味着其置信度平均与实际准确率相差25个百分点。这对于高风险部署来说是不可接受的。

根本原因似乎在于训练数据本身。模型从人类撰写的文本中学习，而这些文本即使出错也普遍语气自信。网络论坛、学术论文和新闻文章很少使用模糊措辞。模型将这种过度自信的风格内化为“优质”输出的特征。此外，RLHF训练通常奖励有帮助、果断的回复，而非不确定的回复，进一步加剧了这种偏差。

关键参与者与案例研究

校准问题并未被主要AI实验室忽视，尽管它们的应对方法差异显著。OpenAI已发表关于"instructGPT"和"constitutional AI"的研究，但尚未公开发布GPT-4o的校准置信度分数。Anthropic更为透明，发布了一篇关于"Honest AI"的论文，提出训练模型在答案旁输出置信区间。Google DeepMind尝试了Gemini的集成方法，但这些方法计算成本高昂。

一个值得关注的案例是医疗AI初创公司 Hippocratic AI，该公司构建用于医疗保健的LLM。他们公开表示校准是首要任务，并使用包含校准损失项的自定义训练流程。早期结果显示，与现成模型相比，ECE降低了40%，但代价是简单题准确率下降了15%。这种权衡是该领域的核心矛盾。

| 公司/产品 | 方法 | 校准方式 | 报告ECE（难题） | 准确率（难题） |
|---|---|---|---|---|
| OpenAI (GPT-4o) | 事后缩放 | 温度调优 | 0.28 | 72% |
| Anthropic (Claude 3.5) | 宪法AI + 置信度头 | 自定义训练 | 0.25 | 74% |
| Google DeepMind (Gemini) | 5模型集成 | 平均化 | 0.31 | 70% |
| Hippocratic AI (MedAssist) | 校准损失 + RLHF | 自定义流程 | 0.18 | 68% |

数据要点： Hippocratic AI的专门方法实现了最佳校准，但牺牲了准确率。这表明校准和准确率目前处于紧张状态，需要突破才能同时实现两者。

另一个关键参与者是 UC Berkeley 由Jacob Steinhardt教授领导的研究小组，他们发表了将这一问题推向聚光灯下的预注册研究。他们的工作对于将校准确立为独立于准确率的评估维度至关重要。他们还发布了一个基准测试套件，供其他研究人员评估其模型的校准性能。

时间归档

常见问题

这次模型发布“AI's Overconfidence Crisis: Why Language Models Are Dangerously Certain When Wrong”的核心内容是什么？

A pre-registered study has laid bare a troubling truth about the current generation of large language models: they suffer from a systemic 'difficulty effect' in confidence calibrat…

从“how to calibrate large language model confidence”看，这个模型发布为什么重要？

The confidence calibration problem in large language models stems from a fundamental mismatch between training objectives and real-world deployment. Current models are optimized primarily for next-token prediction accura…

围绕“best open source tools for AI uncertainty estimation”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI的过度自信危机：语言模型在犯错时为何如此危险地笃定

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题