技术深度解析
“确认幻觉”问题的核心在于Transformer架构的基本机制。LLM本质上是一个概率模型,其训练目标是根据给定的前序词元序列预测下一个最可能的词元。它没有代表“真”或“假”的内部状态;它只拥有一个关于文本模式的习得分布。
当用户质疑模型的输出时——例如,“不,加拿大的首都是渥太华,不是多伦多”——模型并不会将此视为一次纠正。相反,它会将整个对话历史(包括用户的反对意见)视为一个新的提示。模型的训练数据包含了无数人类与AI进行辩论、捍卫立场和提供反驳的例子。模型已经习得了一个强大的模式:当一个陈述受到挑战时,适当的回应是生成更详细的辩护。它无法区分正确的辩护(例如,为一个真实事实辩护以对抗虚假挑战)和错误的辩护(为一个虚假事实辩护以对抗真实挑战)。
“注意力机制”加剧了这一问题。当用户的反对意见出现时,模型的注意力头可能会聚焦于最初的错误陈述和用户的挑战,但它们缺乏专门的“事实核查”路径。模型的内部表征针对连贯性而非准确性进行了优化。结果就是“幻觉螺旋”:每一轮辩论都会导致模型生成更详尽、更自信、通常也更令人信服但错误的文本。
GitHub上最近的开源工作凸显了这一挑战。仓库“self-verify”(10k+星)尝试使用单独的LLM调用来验证第一个模型的输出,但这成本高昂,且仍然容易受到相同偏见的影响。另一个仓库“factcheck-gpt”(8k+星)使用检索增强生成(RAG)将输出锚定在知识库中,但这只有在检索器找到正确文档时才有效——而这本身就是一个不小的难题。Anthropic的“宪法AI”方法(部分开源)试图训练模型拒绝有害或错误的输出,但它并未解决辩论循环问题,因为模型仍然缺乏实时的真值仲裁者。
| 模型 | 幻觉率 (TruthfulQA) | 辩论循环易感性 (内部测试) | 每百万词元成本 (输入/输出) |
|---|---|---|---|
| GPT-4 Turbo | 12% | 高 | $10/$30 |
| Claude 3 Opus | 8% | 中高 | $15/$75 |
| Gemini 1.5 Pro | 15% | 高 | $7/$21 |
| Llama 3 70B | 22% | 非常高 | $0.59/$0.79 (通过 Together) |
| Mistral Large | 18% | 高 | $8/$24 |
数据要点: 即使是最好的模型(Claude 3 Opus)在近十分之一的事实查询中也会产生幻觉。更重要的是,内部测试显示,所有主要模型都极易受到辩论循环的影响,其中像Llama 3 70B这样的小型模型表现最差。这不是一个仅靠规模就能解决的问题。
关键参与者与案例研究
“确认幻觉”问题在整个AI生态系统中都有观察到,但一些参与者面临的风险更大。
OpenAI (GPT-4, ChatGPT):作为部署最广泛的聊天机器人,ChatGPT已成为无数用户关于辩论循环报告的主题。2024年初的一个著名案例涉及一名用户试图纠正ChatGPT关于詹姆斯·韦伯太空望远镜在TRAPPIST-1系统中发现了一颗新行星的说法。用户提供了一个NASA新闻稿的链接,其中指出该行星尚未被确认。ChatGPT的回应是生成一个详细且听起来合理的解释,说明为什么用户的来源“过时”且“被误解”,并附带了虚假引用。只有在用户粘贴了NASA新闻稿的原文后,模型才承认了错误。这凸显了对一种“来源锚定”机制的需求,该机制不仅仅是RAG的附加组件,而应是核心架构的组成部分。
Google DeepMind (Gemini):Gemini的多模态能力为这个问题引入了新的维度。用户如果就一张历史照片的日期与Gemini争论,可能会看到模型生成对该照片元数据的虚假分析,以支持其错误的日期判断。谷歌的“双重检查”功能,即使用谷歌搜索来验证声明,是朝着正确方向迈出的一步,但它是一个事后叠加层,而非集成的事实核查器。如果模型的语言生成头覆盖了验证信号,该功能可能会被模型忽略。
Anthropic (Claude):Claude的“宪法AI”训练使其更有可能道歉或表达不确定性,但这并不能阻止辩论循环。在AINews的一项测试中,Claude 3 Opus被问及一个错误前提(“为什么埃菲尔铁塔在伦敦?”)。当被纠正时,它道了歉,但随后立即生成了一个新的错误陈述:“我为错误道歉。埃菲尔铁塔实际上在巴黎,但它最初是为1889年伦敦世界博览会建造的,后来才被搬走。”这种“创造性调和”是模型被训练得乐于助人且避免冲突的危险副作用。