技术深度解析
幻觉问题的根源在于大语言模型的基本架构。GPT-4、Claude 3.5和Llama 3等模型的核心是下一个词元预测引擎。它们从数万亿个词元中学习统计模式,但缺乏内在的真理、事实核查或来源归因机制。在生成响应时,模型从可能词元的概率分布中采样——它始终在猜测,尽管其先验知识越来越复杂。
“自信-准确悖论”源于模型的训练目标。在基于人类反馈的强化学习(RLHF)过程中,模型因生成流畅、有用且听起来自信的响应而获得奖励。这无意中惩罚了“我不确定”或“这可能不正确”等不确定性表达。模型学会了:无论事实准确性如何,表现得自信就能获得更高奖励。这创造了一种反常激励:模型在超出其知识边界时,语言上反而变得更加武断。
从工程角度来看,几个架构因素导致了这一问题:
- 注意力头饱和:在非常长的上下文中,注意力头可能过载,导致模型“遗忘”或错误引用较早的词元,从而产生捏造的细节。
- Softmax过度自信:将logits转换为概率的Softmax层倾向于产生尖锐的分布,即使模型内部不确定性很高。这意味着模型很少输出真正“不确定”的词元概率。
- 训练数据污染:模型无法区分事实正确的训练数据和虚构内容(例如小说、假设场景)。所有文本都被视为同样有效的模式来模仿。
多个开源项目正试图解决这些问题。GitHub上的CRAG(综合RAG)基准(现已获得超过1200颗星)为检索增强生成系统提供了标准化评估。Self-RAG仓库(超过2500颗星)引入了一个框架,模型可以按需检索并批判自己的段落。另一个值得注意的项目是FactScore(1800+颗星),它将生成的文本分解为原子声明,并针对知识库逐一验证。
| 模型 | 幻觉率(医疗) | 幻觉率(法律) | 幻觉率(金融) | 自信度评分(错误) | 自信度评分(正确) |
|---|---|---|---|---|---|
| GPT-4 Turbo | 14.2% | 21.5% | 17.8% | 0.91 | 0.76 |
| Claude 3.5 Sonnet | 12.8% | 19.3% | 16.1% | 0.89 | 0.74 |
| Llama 3 70B | 18.5% | 26.7% | 22.4% | 0.93 | 0.71 |
| Gemini 1.5 Pro | 15.6% | 23.1% | 19.2% | 0.90 | 0.73 |
数据要点: 该表揭示了一个一致的模式:所有模型的幻觉率都令人担忧,法律和金融领域尤其严重。关键是,所有模型的“自信度评分(错误)”列均普遍高于“自信度评分(正确)”列,证实了这一悖论。Llama 3 70B尽管是开源且广泛使用的,但显示出最高的幻觉率,这表明较小的开源模型在缺乏受控检索机制时尤其脆弱。
关键参与者与案例研究
该研究的发现对在生产环境中部署LLM的公司具有直接影响。几个关键参与者正站在应对这场危机的前沿:
OpenAI 因优先考虑能力而非可靠性而受到批评。其GPT-4 Turbo虽然强大,但仍表现出自信-准确悖论。他们最近引入的“函数调用”和“结构化输出”是一种部分承认,但这些功能并未解决根本的幻觉问题。该公司的闭源方法使得独立验证变得困难。
Anthropic 将Claude 3.5定位为“更安全”的替代方案,强调宪法AI和减少危害。虽然Claude在研究中的幻觉率略低,但对于大多数用例而言,这种差异在统计上并不显著。Anthropic对可解释性研究的关注很有前景,但尚未转化为生产级解决方案。
Google DeepMind 正以不同的方式处理Gemini,将Google搜索直接集成到模型的推理过程中。这种“搜索增强”生成是RAG的一种形式,但早期结果显示它会引入延迟,并且在搜索结果模糊或矛盾时仍可能产生幻觉。
Perplexity AI 将其整个产品建立在RAG之上,为每个声明明确引用来源。他们的方法在受控测试中将幻觉率降低到5%以下,但代价是输出风格更加刻板、缺乏创造力。Perplexity的模型不适合需要原创综合或创意写作的任务。
| 解决方案 | 幻觉率 | 延迟(每次查询) | 来源透明度 | 创造力评分 |
|---|---|---|---|---|
| 标准LLM(无RAG) | 15-27% | 低 | 无 | 高 |
| 基础RAG(如Perplexity) | <5% | 中 | 高 | 低 |
| 高级RAG(如Self-RAG) | 8-12% | 高 | 中 | 中 |
| 搜索增强生成(如Gemini) | 10-15% | 高 | 中 | 中 |