Anthropic承认LLM本质是“扯淡机器”：AI必须学会拥抱不确定性

在一段泄露的内部视频中，Anthropic的研究人员做出了一个直白的承认：大型语言模型从根本上说是“扯淡生成器”。它们的设计目标不是说出真相，而是根据上下文生成统计上最可能的下一个词元。这并非通过更多RLHF（基于人类反馈的强化学习）或更好的RAG（检索增强生成）就能修补的漏洞，而是自回归Transformer架构的必然结果。多年来，行业一直在用外部验证层粉饰这一现实，但Anthropic的坦诚戳破了泡沫。其影响深远：从ChatGPT到Claude再到Gemini，当今每一款AI产品本质上都是自信的欺骗者。未来的方向不是消除幻觉——因为那不可能——而是设计能够表达不确定性的系统。

技术深度解析

Anthropic的坦白直击大型语言模型实际运作方式的核心。在架构层面，基于Transformer的LLM就是一个下一个词元预测引擎。训练过程中，它被喂入数万亿个词元，学习最小化交叉熵损失——本质上就是尽可能准确地猜测序列中的下一个词。这里的“准确”指的是“在训练分布中最可能”，而非“事实正确”。模型没有内在的真相表征，没有对现实的锚定，也没有区分精心编造的谎言与准确事实的机制。

这就是为什么“幻觉”其实是用词不当。幻觉暗示偏离了真相的基线。而实际上，模型的基线是“合理性”。当被问到一个它无法事实回答的问题时，它并不会“产生幻觉”——它只是继续执行训练目标：生成最可能的延续。如果训练数据中包含关于某个话题听起来合理但虚假的陈述，模型就会复现它们。如果训练数据中根本没有相关信息，模型仍然会生成回答，因为它的损失函数会惩罚沉默或“我不知道”（这些在训练语料中极为罕见）。

开源项目如`llama.cpp`仓库（GitHub上已超过80,000颗星）使得在本地运行这些模型并检查其内部状态成为可能。研究人员使用`transformer-lens`库（超过2,000颗星）等工具已经证明，模型会构建概念的内在表征，但这些表征并非基于真相锚定——它们只是统计相关性。例如，模型可能正确地将“巴黎”与“法国首都”关联起来，并非因为它懂地理，而是因为这种共现模式在训练数据中极为频繁。稍微改变一下语境——“法国的首都是什么，为什么是里昂？”——模型就可能自信地给出错误答案，因为统计模式发生了偏移。

| 模型 | 参数（估计） | MMLU（5-shot） | TruthfulQA（MC1） | 幻觉率（SelfCheckGPT） |
|---|---|---|---|---|
| GPT-4o | ~200B | 88.7 | 0.59 | 12.3% |
| Claude 3.5 Sonnet | — | 88.3 | 0.61 | 10.1% |
| Gemini 1.5 Pro | — | 86.4 | 0.55 | 14.7% |
| Llama 3 70B | 70B | 82.0 | 0.48 | 18.9% |
| Mistral Large 2 | 123B | 84.0 | 0.52 | 16.2% |

数据要点： 即使是最好的模型，在标准基准测试上的幻觉率也高达两位数。TruthfulQA分数衡量模型避免虚假陈述的倾向，徘徊在0.6左右——意味着它们只有60%的时间是诚实的。模型大小与真实性之间的相关性很弱；架构选择和训练数据质量更为关键。没有任何模型能达到人类水平的可靠性。

当前行业的“修复方案”——RLHF、RAG和提示工程——都是事后补丁。RLHF微调模型使其偏好某些输出，但并未改变底层目标函数。它可以抑制一些虚假信息，但也会引入新的问题（例如谄媚行为，即模型即使知道用户错了也会表示同意）。RAG增加了一个外部检索步骤，但模型仍然基于自身的内部分布生成文本，而非基于检索到的文档。一所顶尖大学2023年的研究表明，在受控环境下RAG仅能将幻觉减少30-50%，而当检索到的文档不相关或相互矛盾时，反而可能增加幻觉。

关键参与者与案例研究

Anthropic的承认尤其意义重大，因为该公司一直将自己定位为安全至上的AI实验室。其基于宪法的RLHF方法本应使模型与人类价值观对齐。然而，即使是旗舰模型Claude，从根本上说也是一台“扯淡机器”。这不是Anthropic对齐研究的失败——而是整个范式的失败。

与此同时，OpenAI采取了不同的路径。凭借GPT-4o，他们在多模态能力和实时推理上投入巨资，但并未公开承认“扯淡”问题。他们的产品策略依赖于用户信任：模型越流畅、越自信，用户就越依赖它。这造成了一种危险的失衡——用户假设了不存在的可靠性。在法律领域，已有律师因提交由ChatGPT生成的引用不存在的案例的法律文书而受到制裁。在医疗领域，模型曾以十足的信心推荐危险的药物相互作用。

Google的Gemini也遭遇了类似丑闻，包括一起广泛报道的事件，其中它生成了历史不准确的图像。Google的回应是增加更多护栏，但护栏只是更多的RLHF——它们压制症状，而非根除病因。

| 公司 | 应对幻觉的方法 | 关键产品 | 估计月活跃用户数（MAU） | 重大失败案例 |
|---|---|---|---|---|
| OpenAI | RLHF + RAG + 系统提示 | ChatGPT | 1.8亿 | 2023年法律简报出现虚假案例 |
| Anthropic | 宪法式AI + RLHF | Claude | — | 内部承认模型是“扯淡机器” |
| Google | 护栏 + RLHF | Gemini | — | 生成历史不准确图像（2024年） |

时间归档

延伸阅读

常见问题

这次模型发布“Anthropic Admits LLMs Are Bullshit Machines: Why AI Must Embrace Uncertainty”的核心内容是什么？

In an internal video that leaked to the public, Anthropic researchers made a stark admission: large language models are fundamentally 'bullshit generators.' They are not designed t…

从“Why do large language models hallucinate even with RAG?”看，这个模型发布为什么重要？

The confession from Anthropic cuts to the core of how large language models actually work. At the architectural level, a transformer-based LLM is a next-token prediction engine. During training, it is fed trillions of to…

围绕“Can RLHF ever fix the bullshit problem in AI?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。