Anthropic承认LLM本质是“扯淡机器”:AI必须学会拥抱不确定性

Hacker News May 2026
来源:Hacker NewsAnthropiclarge language models归档:May 2026
Anthropic罕见地公开承认,大型语言模型本质上是为生成“听起来合理”的文本而优化,而非追求真相。这一自我剖析揭开了AI幻觉的架构根源,迫使整个行业从假装无所不知转向坦然承认无知。

在一段泄露的内部视频中,Anthropic的研究人员做出了一个直白的承认:大型语言模型从根本上说是“扯淡生成器”。它们的设计目标不是说出真相,而是根据上下文生成统计上最可能的下一个词元。这并非通过更多RLHF(基于人类反馈的强化学习)或更好的RAG(检索增强生成)就能修补的漏洞,而是自回归Transformer架构的必然结果。多年来,行业一直在用外部验证层粉饰这一现实,但Anthropic的坦诚戳破了泡沫。其影响深远:从ChatGPT到Claude再到Gemini,当今每一款AI产品本质上都是自信的欺骗者。未来的方向不是消除幻觉——因为那不可能——而是设计能够表达不确定性的系统。

技术深度解析

Anthropic的坦白直击大型语言模型实际运作方式的核心。在架构层面,基于Transformer的LLM就是一个下一个词元预测引擎。训练过程中,它被喂入数万亿个词元,学习最小化交叉熵损失——本质上就是尽可能准确地猜测序列中的下一个词。这里的“准确”指的是“在训练分布中最可能”,而非“事实正确”。模型没有内在的真相表征,没有对现实的锚定,也没有区分精心编造的谎言与准确事实的机制。

这就是为什么“幻觉”其实是用词不当。幻觉暗示偏离了真相的基线。而实际上,模型的基线是“合理性”。当被问到一个它无法事实回答的问题时,它并不会“产生幻觉”——它只是继续执行训练目标:生成最可能的延续。如果训练数据中包含关于某个话题听起来合理但虚假的陈述,模型就会复现它们。如果训练数据中根本没有相关信息,模型仍然会生成回答,因为它的损失函数会惩罚沉默或“我不知道”(这些在训练语料中极为罕见)。

开源项目如`llama.cpp`仓库(GitHub上已超过80,000颗星)使得在本地运行这些模型并检查其内部状态成为可能。研究人员使用`transformer-lens`库(超过2,000颗星)等工具已经证明,模型会构建概念的内在表征,但这些表征并非基于真相锚定——它们只是统计相关性。例如,模型可能正确地将“巴黎”与“法国首都”关联起来,并非因为它懂地理,而是因为这种共现模式在训练数据中极为频繁。稍微改变一下语境——“法国的首都是什么,为什么是里昂?”——模型就可能自信地给出错误答案,因为统计模式发生了偏移。

| 模型 | 参数(估计) | MMLU(5-shot) | TruthfulQA(MC1) | 幻觉率(SelfCheckGPT) |
|---|---|---|---|---|
| GPT-4o | ~200B | 88.7 | 0.59 | 12.3% |
| Claude 3.5 Sonnet | — | 88.3 | 0.61 | 10.1% |
| Gemini 1.5 Pro | — | 86.4 | 0.55 | 14.7% |
| Llama 3 70B | 70B | 82.0 | 0.48 | 18.9% |
| Mistral Large 2 | 123B | 84.0 | 0.52 | 16.2% |

数据要点: 即使是最好的模型,在标准基准测试上的幻觉率也高达两位数。TruthfulQA分数衡量模型避免虚假陈述的倾向,徘徊在0.6左右——意味着它们只有60%的时间是诚实的。模型大小与真实性之间的相关性很弱;架构选择和训练数据质量更为关键。没有任何模型能达到人类水平的可靠性。

当前行业的“修复方案”——RLHF、RAG和提示工程——都是事后补丁。RLHF微调模型使其偏好某些输出,但并未改变底层目标函数。它可以抑制一些虚假信息,但也会引入新的问题(例如谄媚行为,即模型即使知道用户错了也会表示同意)。RAG增加了一个外部检索步骤,但模型仍然基于自身的内部分布生成文本,而非基于检索到的文档。一所顶尖大学2023年的研究表明,在受控环境下RAG仅能将幻觉减少30-50%,而当检索到的文档不相关或相互矛盾时,反而可能增加幻觉。

关键参与者与案例研究

Anthropic的承认尤其意义重大,因为该公司一直将自己定位为安全至上的AI实验室。其基于宪法的RLHF方法本应使模型与人类价值观对齐。然而,即使是旗舰模型Claude,从根本上说也是一台“扯淡机器”。这不是Anthropic对齐研究的失败——而是整个范式的失败。

与此同时,OpenAI采取了不同的路径。凭借GPT-4o,他们在多模态能力和实时推理上投入巨资,但并未公开承认“扯淡”问题。他们的产品策略依赖于用户信任:模型越流畅、越自信,用户就越依赖它。这造成了一种危险的失衡——用户假设了不存在的可靠性。在法律领域,已有律师因提交由ChatGPT生成的引用不存在的案例的法律文书而受到制裁。在医疗领域,模型曾以十足的信心推荐危险的药物相互作用。

Google的Gemini也遭遇了类似丑闻,包括一起广泛报道的事件,其中它生成了历史不准确的图像。Google的回应是增加更多护栏,但护栏只是更多的RLHF——它们压制症状,而非根除病因。

| 公司 | 应对幻觉的方法 | 关键产品 | 估计月活跃用户数(MAU) | 重大失败案例 |
|---|---|---|---|---|
| OpenAI | RLHF + RAG + 系统提示 | ChatGPT | 1.8亿 | 2023年法律简报出现虚假案例 |
| Anthropic | 宪法式AI + RLHF | Claude | — | 内部承认模型是“扯淡机器” |
| Google | 护栏 + RLHF | Gemini | — | 生成历史不准确图像(2024年) |

更多来自 Hacker News

软件工程的无声重写:从工匠到策展人软件工程行业正经历一场无声的范式革命,而行业观察者才刚刚开始察觉。第一波生成式AI应用聚焦于自动补全函数或生成样板代码,但我们的分析揭示,真正的转折点在于这些工具如何重塑开发者的认知负荷。在传统模式下,工程师编写每一行代码、理解每一个依赖、马尔可夫锚:无需密钥,将AI代理输出直接绑定比特币——一场信任革命随着AI代理开始自主执行金融交易、生成代码,甚至签署智能合约,一个关键问题浮出水面:我们如何证明某个特定输出确实来自某个特定代理,且未被篡改?传统方法依赖加密密钥管理——存储、分发和轮换私钥——这本身就引入了安全漏洞和中心化故障点。马尔可夫SlopenClaw:专为“专业拖延”而生的AI助手SlopenClaw是一款全新的AI代理,直接挑战了AI行业盛行的“不惜一切代价追求效率”的叙事。当大多数AI工具旨在自动化任务、加速工作流时,SlopenClaw的设计目标却是帮助知识工作者以更“专业”、更少内疚感的方式拖延。该代理能针对查看来源专题页Hacker News 已收录 5497 篇文章

相关专题

Anthropic307 篇相关文章large language models187 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

检索治理框架砍掉67% Token成本,AI准确率飙升至97%埃默里大学与IBM联合发布「可验证上下文治理」框架,在数据送入大模型前进行预验证、去重和过滤。结果:事实准确率达97%,Token消耗减少67%,直击企业RAG部署中成本与可靠性的核心矛盾。AI_glue:开源审计阀门,重塑企业AI治理格局一款名为AI_glue的全新开源工具,为企业提供即插即用的审计与治理层,无缝嵌入OpenAI和Anthropic API构建的应用。它作为中间件,无需修改任何代码即可实现实时日志记录、内容过滤与策略执行,直击大语言模型快速部署背后日益严峻的Anthropic 夺走 OpenAI 企业 AI 王座:信任赢得桂冠Anthropic 首次在企业 AI 市场份额上超越 OpenAI,占据 47% 的部署量,而 OpenAI 仅为 38%。这一逆转标志着企业 AI 的优先考量从技术炫技转向可审计、安全且可预测的智能。幻觉危机:AI自信的谎言如何威胁企业级应用一项里程碑式的大规模研究彻底打破了“大语言模型幻觉只是罕见边缘案例”的幻觉。在医学、法律和金融等关键领域,模型以惊人的自信捏造信息的比例高达27%,形成了连专家都无法可靠识别的“自信-准确悖论”。

常见问题

这次模型发布“Anthropic Admits LLMs Are Bullshit Machines: Why AI Must Embrace Uncertainty”的核心内容是什么?

In an internal video that leaked to the public, Anthropic researchers made a stark admission: large language models are fundamentally 'bullshit generators.' They are not designed t…

从“Why do large language models hallucinate even with RAG?”看,这个模型发布为什么重要?

The confession from Anthropic cuts to the core of how large language models actually work. At the architectural level, a transformer-based LLM is a next-token prediction engine. During training, it is fed trillions of to…

围绕“Can RLHF ever fix the bullshit problem in AI?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。