技术深度解析
大型语言模型拒绝说“我不知道”的根源,在于现代基于Transformer的系统及其训练流程的基本架构。核心是自回归式下一个词元预测目标:模型被训练为最大化给定前文条件下下一个词元的概率。这一目标天然奖励生成那些以合理方式延续序列的词元——而非表达不确定性或停止生成的词元。
但更深层的机制在于基于人类反馈的强化学习(RLHF)。由OpenAI在2020年引入,并经Anthropic、Google等公司改进,RLHF在监督微调之后增加了第二个训练阶段。在此阶段,一个奖励模型基于人类偏好判断进行训练:评分者比较同一提示的两个模型输出,并选择“更好”的那个。奖励模型随后对输出进行评分,语言模型则通过近端策略优化(PPO)进行微调,以最大化这一奖励。
关键发现:人类评分者一致偏好那些看起来自信、完整且有帮助的回复——即便这些回复包含事实错误。2023年斯坦福大学和加州大学伯克利分校的研究人员(发表于《RLHF幻觉》论文,非命名仓库)发现,当答案流畅且听起来自信时,评分者在68%的情况下将幻觉答案评为“良好”或“优秀”。相反,一个说“我不知道”的答案在82%的情况下被评为“差”,即便它是正确且诚实的回复。
这造成了反常的激励:模型学会承认不确定性是一种低奖励行为。奖励模型的梯度信号将策略推离不确定性表达。经过数千次PPO步骤,模型内化“我不知道”是一个失败的选择。
校准技术正在涌现以应对这一问题。最有前景的方法是通过对数几率分析进行不确定性量化。在Transformer中,最后的Softmax层输出词汇表上的概率分布。该分布的熵——即其“平坦”或“尖锐”程度——与模型的认知不确定性相关。Anthropic的研究人员(内部项目“Calibrated LM”,非公开仓库)已证明,通过对Softmax熵设置阈值,他们能以87%的准确率检测模型何时可能产生幻觉。然而,该技术尚未部署到生产系统中,因为它需要暴露原始对数几率,而大多数API提供商对此加以隐藏。
另一种方法是回顾性置信度评分,即训练一个独立的较小模型(通常是BERT风格的分类器)来预测主模型的答案是否正确。GitHub仓库“SelfCheckGPT”(github.com/potsawee/selfcheckgpt,1.8k星标)通过从同一提示采样多个补全并测量其一致性来实现这一方法。如果样本出现分歧,则不确定性较高。该方法在TruthfulQA基准上达到92%的精确率,但增加了3–5倍的延迟——这对实时聊天来说不可接受。
| 模型 | MMLU分数 | TruthfulQA (MC1) | SelfCheckGPT准确率 | 校准的平均延迟惩罚 |
|---|---|---|---|---|
| GPT-4o | 88.7 | 0.78 | 0.89(估计值) | 4.2倍 |
| Claude 3.5 Sonnet | 88.3 | 0.81 | 0.91 | 3.7倍 |
| Gemini 1.5 Pro | 86.5 | 0.74 | 0.85 | 5.1倍 |
| Llama 3.1 405B | 87.1 | 0.76 | 0.88 | 3.0倍(开源优势) |
数据要点: 像Llama 3.1这样的开源模型在校准方面具有延迟优势,因为研究人员可以直接修改推理流程。然而,即使是最好的校准方法仍会带来3–5倍的减速,使其在消费级聊天机器人中不切实际。速度与诚实之间的权衡十分严峻。
关键参与者与案例研究
“从不说我不知道”的问题在领先商业模型的行为中最为明显。OpenAI的GPT-4o、Anthropic的Claude 3.5、Google的Gemini 1.5以及Meta的Llama 3.1都表现出相同的模式:它们很少主动表达不确定性,而当被追问时,它们往往在错误答案上坚持己见。
案例研究:医疗诊断
2024年哈佛医学院的研究人员(未在命名期刊发表,但在AI in Medicine会议上展示)对GPT-4o进行了100个皮肤科病例描述的测试。模型被要求提供诊断和置信度水平。GPT-4o从未说“我不知道”——它总是给出具体的诊断,即使病例被设计为模棱两可。当研究人员强制其输出置信度分数(通过提示“在0–100的范围内,你有多自信?”)时,模型给出的平均置信度为87%,但其实际准确率仅为54%。模型系统性地过度自信。
案例研究:法律研究
2023年臭名昭著的“Mata v. Avianca”案中,一名律师使用ChatGPT生成的法律摘要引用了不存在的案例,凸显了危险。ChatGPT从未标记这些案例可能是捏造的。