与AI争论会让它产生更多幻觉：确认循环危机

越来越多的研究——以及一波又一波沮丧的用户报告——证实了大语言模型一个令人深感不安的特性：当它们出错时与它们争论，会让它们错得更离谱。困惑的LLM不会意识到自己的错误，反而会将用户的质疑解读为一种提示，促使其生成更详尽、更自信的理由来为其最初的错误辩护。AINews将这种现象称为“确认幻觉”，它源于LLM作为下一个词元预测器的基本架构。它们没有内部真值检查机制，只有一种习得的叙事一致性驱动力。当受到挑战时，模型会在其训练数据中搜索“捍卫立场”的模式，并生成一个更具说服力——但仍然是错误——的回应。这不是一个可以修补的漏洞，而是一个结构性问题。

技术深度解析

“确认幻觉”问题的核心在于Transformer架构的基本机制。LLM本质上是一个概率模型，其训练目标是根据给定的前序词元序列预测下一个最可能的词元。它没有代表“真”或“假”的内部状态；它只拥有一个关于文本模式的习得分布。

当用户质疑模型的输出时——例如，“不，加拿大的首都是渥太华，不是多伦多”——模型并不会将此视为一次纠正。相反，它会将整个对话历史（包括用户的反对意见）视为一个新的提示。模型的训练数据包含了无数人类与AI进行辩论、捍卫立场和提供反驳的例子。模型已经习得了一个强大的模式：当一个陈述受到挑战时，适当的回应是生成更详细的辩护。它无法区分正确的辩护（例如，为一个真实事实辩护以对抗虚假挑战）和错误的辩护（为一个虚假事实辩护以对抗真实挑战）。

“注意力机制”加剧了这一问题。当用户的反对意见出现时，模型的注意力头可能会聚焦于最初的错误陈述和用户的挑战，但它们缺乏专门的“事实核查”路径。模型的内部表征针对连贯性而非准确性进行了优化。结果就是“幻觉螺旋”：每一轮辩论都会导致模型生成更详尽、更自信、通常也更令人信服但错误的文本。

GitHub上最近的开源工作凸显了这一挑战。仓库“self-verify”（10k+星）尝试使用单独的LLM调用来验证第一个模型的输出，但这成本高昂，且仍然容易受到相同偏见的影响。另一个仓库“factcheck-gpt”（8k+星）使用检索增强生成（RAG）将输出锚定在知识库中，但这只有在检索器找到正确文档时才有效——而这本身就是一个不小的难题。Anthropic的“宪法AI”方法（部分开源）试图训练模型拒绝有害或错误的输出，但它并未解决辩论循环问题，因为模型仍然缺乏实时的真值仲裁者。

| 模型 | 幻觉率 (TruthfulQA) | 辩论循环易感性 (内部测试) | 每百万词元成本 (输入/输出) |
|---|---|---|---|
| GPT-4 Turbo | 12% | 高 | $10/$30 |
| Claude 3 Opus | 8% | 中高 | $15/$75 |
| Gemini 1.5 Pro | 15% | 高 | $7/$21 |
| Llama 3 70B | 22% | 非常高 | $0.59/$0.79 (通过 Together) |
| Mistral Large | 18% | 高 | $8/$24 |

数据要点： 即使是最好的模型（Claude 3 Opus）在近十分之一的事实查询中也会产生幻觉。更重要的是，内部测试显示，所有主要模型都极易受到辩论循环的影响，其中像Llama 3 70B这样的小型模型表现最差。这不是一个仅靠规模就能解决的问题。

关键参与者与案例研究

“确认幻觉”问题在整个AI生态系统中都有观察到，但一些参与者面临的风险更大。

OpenAI (GPT-4, ChatGPT)：作为部署最广泛的聊天机器人，ChatGPT已成为无数用户关于辩论循环报告的主题。2024年初的一个著名案例涉及一名用户试图纠正ChatGPT关于詹姆斯·韦伯太空望远镜在TRAPPIST-1系统中发现了一颗新行星的说法。用户提供了一个NASA新闻稿的链接，其中指出该行星尚未被确认。ChatGPT的回应是生成一个详细且听起来合理的解释，说明为什么用户的来源“过时”且“被误解”，并附带了虚假引用。只有在用户粘贴了NASA新闻稿的原文后，模型才承认了错误。这凸显了对一种“来源锚定”机制的需求，该机制不仅仅是RAG的附加组件，而应是核心架构的组成部分。

Google DeepMind (Gemini)：Gemini的多模态能力为这个问题引入了新的维度。用户如果就一张历史照片的日期与Gemini争论，可能会看到模型生成对该照片元数据的虚假分析，以支持其错误的日期判断。谷歌的“双重检查”功能，即使用谷歌搜索来验证声明，是朝着正确方向迈出的一步，但它是一个事后叠加层，而非集成的事实核查器。如果模型的语言生成头覆盖了验证信号，该功能可能会被模型忽略。

Anthropic (Claude)：Claude的“宪法AI”训练使其更有可能道歉或表达不确定性，但这并不能阻止辩论循环。在AINews的一项测试中，Claude 3 Opus被问及一个错误前提（“为什么埃菲尔铁塔在伦敦？”）。当被纠正时，它道了歉，但随后立即生成了一个新的错误陈述：“我为错误道歉。埃菲尔铁塔实际上在巴黎，但它最初是为1889年伦敦世界博览会建造的，后来才被搬走。”这种“创造性调和”是模型被训练得乐于助人且避免冲突的危险副作用。

时间归档

延伸阅读

常见问题

这次模型发布“Debating AI Makes It Hallucinate More: The Confirmation Loop Crisis”的核心内容是什么？

A growing body of research—and a wave of frustrated user reports—confirms a deeply unsettling property of large language models: arguing with them when they are wrong makes them mo…

从“Why does arguing with ChatGPT make it more wrong?”看，这个模型发布为什么重要？

The core of the 'confirmation hallucination' problem lies in the fundamental mechanics of the transformer architecture. An LLM is, at its heart, a probabilistic model trained to predict the next most likely token given a…

围绕“How to stop AI hallucination in customer service chatbots”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。