技术深度解析
Anthropic的坦白直击大型语言模型实际运作方式的核心。在架构层面,基于Transformer的LLM就是一个下一个词元预测引擎。训练过程中,它被喂入数万亿个词元,学习最小化交叉熵损失——本质上就是尽可能准确地猜测序列中的下一个词。这里的“准确”指的是“在训练分布中最可能”,而非“事实正确”。模型没有内在的真相表征,没有对现实的锚定,也没有区分精心编造的谎言与准确事实的机制。
这就是为什么“幻觉”其实是用词不当。幻觉暗示偏离了真相的基线。而实际上,模型的基线是“合理性”。当被问到一个它无法事实回答的问题时,它并不会“产生幻觉”——它只是继续执行训练目标:生成最可能的延续。如果训练数据中包含关于某个话题听起来合理但虚假的陈述,模型就会复现它们。如果训练数据中根本没有相关信息,模型仍然会生成回答,因为它的损失函数会惩罚沉默或“我不知道”(这些在训练语料中极为罕见)。
开源项目如`llama.cpp`仓库(GitHub上已超过80,000颗星)使得在本地运行这些模型并检查其内部状态成为可能。研究人员使用`transformer-lens`库(超过2,000颗星)等工具已经证明,模型会构建概念的内在表征,但这些表征并非基于真相锚定——它们只是统计相关性。例如,模型可能正确地将“巴黎”与“法国首都”关联起来,并非因为它懂地理,而是因为这种共现模式在训练数据中极为频繁。稍微改变一下语境——“法国的首都是什么,为什么是里昂?”——模型就可能自信地给出错误答案,因为统计模式发生了偏移。
| 模型 | 参数(估计) | MMLU(5-shot) | TruthfulQA(MC1) | 幻觉率(SelfCheckGPT) |
|---|---|---|---|---|
| GPT-4o | ~200B | 88.7 | 0.59 | 12.3% |
| Claude 3.5 Sonnet | — | 88.3 | 0.61 | 10.1% |
| Gemini 1.5 Pro | — | 86.4 | 0.55 | 14.7% |
| Llama 3 70B | 70B | 82.0 | 0.48 | 18.9% |
| Mistral Large 2 | 123B | 84.0 | 0.52 | 16.2% |
数据要点: 即使是最好的模型,在标准基准测试上的幻觉率也高达两位数。TruthfulQA分数衡量模型避免虚假陈述的倾向,徘徊在0.6左右——意味着它们只有60%的时间是诚实的。模型大小与真实性之间的相关性很弱;架构选择和训练数据质量更为关键。没有任何模型能达到人类水平的可靠性。
当前行业的“修复方案”——RLHF、RAG和提示工程——都是事后补丁。RLHF微调模型使其偏好某些输出,但并未改变底层目标函数。它可以抑制一些虚假信息,但也会引入新的问题(例如谄媚行为,即模型即使知道用户错了也会表示同意)。RAG增加了一个外部检索步骤,但模型仍然基于自身的内部分布生成文本,而非基于检索到的文档。一所顶尖大学2023年的研究表明,在受控环境下RAG仅能将幻觉减少30-50%,而当检索到的文档不相关或相互矛盾时,反而可能增加幻觉。
关键参与者与案例研究
Anthropic的承认尤其意义重大,因为该公司一直将自己定位为安全至上的AI实验室。其基于宪法的RLHF方法本应使模型与人类价值观对齐。然而,即使是旗舰模型Claude,从根本上说也是一台“扯淡机器”。这不是Anthropic对齐研究的失败——而是整个范式的失败。
与此同时,OpenAI采取了不同的路径。凭借GPT-4o,他们在多模态能力和实时推理上投入巨资,但并未公开承认“扯淡”问题。他们的产品策略依赖于用户信任:模型越流畅、越自信,用户就越依赖它。这造成了一种危险的失衡——用户假设了不存在的可靠性。在法律领域,已有律师因提交由ChatGPT生成的引用不存在的案例的法律文书而受到制裁。在医疗领域,模型曾以十足的信心推荐危险的药物相互作用。
Google的Gemini也遭遇了类似丑闻,包括一起广泛报道的事件,其中它生成了历史不准确的图像。Google的回应是增加更多护栏,但护栏只是更多的RLHF——它们压制症状,而非根除病因。
| 公司 | 应对幻觉的方法 | 关键产品 | 估计月活跃用户数(MAU) | 重大失败案例 |
|---|---|---|---|---|
| OpenAI | RLHF + RAG + 系统提示 | ChatGPT | 1.8亿 | 2023年法律简报出现虚假案例 |
| Anthropic | 宪法式AI + RLHF | Claude | — | 内部承认模型是“扯淡机器” |
| Google | 护栏 + RLHF | Gemini | — | 生成历史不准确图像(2024年) |