Anthropic承认LLM本质是“扯淡机器”:AI必须学会拥抱不确定性

Hacker News May 2026
来源:Hacker NewsAnthropiclarge language models归档:May 2026
Anthropic罕见地公开承认,大型语言模型本质上是为生成“听起来合理”的文本而优化,而非追求真相。这一自我剖析揭开了AI幻觉的架构根源,迫使整个行业从假装无所不知转向坦然承认无知。

在一段泄露的内部视频中,Anthropic的研究人员做出了一个直白的承认:大型语言模型从根本上说是“扯淡生成器”。它们的设计目标不是说出真相,而是根据上下文生成统计上最可能的下一个词元。这并非通过更多RLHF(基于人类反馈的强化学习)或更好的RAG(检索增强生成)就能修补的漏洞,而是自回归Transformer架构的必然结果。多年来,行业一直在用外部验证层粉饰这一现实,但Anthropic的坦诚戳破了泡沫。其影响深远:从ChatGPT到Claude再到Gemini,当今每一款AI产品本质上都是自信的欺骗者。未来的方向不是消除幻觉——因为那不可能——而是设计能够表达不确定性的系统。

技术深度解析

Anthropic的坦白直击大型语言模型实际运作方式的核心。在架构层面,基于Transformer的LLM就是一个下一个词元预测引擎。训练过程中,它被喂入数万亿个词元,学习最小化交叉熵损失——本质上就是尽可能准确地猜测序列中的下一个词。这里的“准确”指的是“在训练分布中最可能”,而非“事实正确”。模型没有内在的真相表征,没有对现实的锚定,也没有区分精心编造的谎言与准确事实的机制。

这就是为什么“幻觉”其实是用词不当。幻觉暗示偏离了真相的基线。而实际上,模型的基线是“合理性”。当被问到一个它无法事实回答的问题时,它并不会“产生幻觉”——它只是继续执行训练目标:生成最可能的延续。如果训练数据中包含关于某个话题听起来合理但虚假的陈述,模型就会复现它们。如果训练数据中根本没有相关信息,模型仍然会生成回答,因为它的损失函数会惩罚沉默或“我不知道”(这些在训练语料中极为罕见)。

开源项目如`llama.cpp`仓库(GitHub上已超过80,000颗星)使得在本地运行这些模型并检查其内部状态成为可能。研究人员使用`transformer-lens`库(超过2,000颗星)等工具已经证明,模型会构建概念的内在表征,但这些表征并非基于真相锚定——它们只是统计相关性。例如,模型可能正确地将“巴黎”与“法国首都”关联起来,并非因为它懂地理,而是因为这种共现模式在训练数据中极为频繁。稍微改变一下语境——“法国的首都是什么,为什么是里昂?”——模型就可能自信地给出错误答案,因为统计模式发生了偏移。

| 模型 | 参数(估计) | MMLU(5-shot) | TruthfulQA(MC1) | 幻觉率(SelfCheckGPT) |
|---|---|---|---|---|
| GPT-4o | ~200B | 88.7 | 0.59 | 12.3% |
| Claude 3.5 Sonnet | — | 88.3 | 0.61 | 10.1% |
| Gemini 1.5 Pro | — | 86.4 | 0.55 | 14.7% |
| Llama 3 70B | 70B | 82.0 | 0.48 | 18.9% |
| Mistral Large 2 | 123B | 84.0 | 0.52 | 16.2% |

数据要点: 即使是最好的模型,在标准基准测试上的幻觉率也高达两位数。TruthfulQA分数衡量模型避免虚假陈述的倾向,徘徊在0.6左右——意味着它们只有60%的时间是诚实的。模型大小与真实性之间的相关性很弱;架构选择和训练数据质量更为关键。没有任何模型能达到人类水平的可靠性。

当前行业的“修复方案”——RLHF、RAG和提示工程——都是事后补丁。RLHF微调模型使其偏好某些输出,但并未改变底层目标函数。它可以抑制一些虚假信息,但也会引入新的问题(例如谄媚行为,即模型即使知道用户错了也会表示同意)。RAG增加了一个外部检索步骤,但模型仍然基于自身的内部分布生成文本,而非基于检索到的文档。一所顶尖大学2023年的研究表明,在受控环境下RAG仅能将幻觉减少30-50%,而当检索到的文档不相关或相互矛盾时,反而可能增加幻觉。

关键参与者与案例研究

Anthropic的承认尤其意义重大,因为该公司一直将自己定位为安全至上的AI实验室。其基于宪法的RLHF方法本应使模型与人类价值观对齐。然而,即使是旗舰模型Claude,从根本上说也是一台“扯淡机器”。这不是Anthropic对齐研究的失败——而是整个范式的失败。

与此同时,OpenAI采取了不同的路径。凭借GPT-4o,他们在多模态能力和实时推理上投入巨资,但并未公开承认“扯淡”问题。他们的产品策略依赖于用户信任:模型越流畅、越自信,用户就越依赖它。这造成了一种危险的失衡——用户假设了不存在的可靠性。在法律领域,已有律师因提交由ChatGPT生成的引用不存在的案例的法律文书而受到制裁。在医疗领域,模型曾以十足的信心推荐危险的药物相互作用。

Google的Gemini也遭遇了类似丑闻,包括一起广泛报道的事件,其中它生成了历史不准确的图像。Google的回应是增加更多护栏,但护栏只是更多的RLHF——它们压制症状,而非根除病因。

| 公司 | 应对幻觉的方法 | 关键产品 | 估计月活跃用户数(MAU) | 重大失败案例 |
|---|---|---|---|---|
| OpenAI | RLHF + RAG + 系统提示 | ChatGPT | 1.8亿 | 2023年法律简报出现虚假案例 |
| Anthropic | 宪法式AI + RLHF | Claude | — | 内部承认模型是“扯淡机器” |
| Google | 护栏 + RLHF | Gemini | — | 生成历史不准确图像(2024年) |

更多来自 Hacker News

Presight.ai的“棱镜计划”:RAG与AI代理如何重塑大数据分析Presight.ai正式启动“Project Prism”,这是一项旨在构建下一代大数据分析平台的重大工程。与依赖关键词搜索或静态BI仪表盘的传统系统不同,Project Prism将Elasticsearch的索引能力与GPU加速的RAAI游乐场沙盒:安全智能体训练的新范式AI行业正经历一场静默而深刻的变革。随着自主智能体获得执行代码、操控API、管理金融账户的能力,容错空间已压缩至零。一个错误的决策就可能引发连锁故障,造成真实世界的后果。为此,一种新范式应运而生:AI安全沙盒,以“AI Playground无标题In a move that perfectly encapsulates the recursive nature of the AI era, a solo developer has created Codiff, a local d查看来源专题页Hacker News 已收录 3522 篇文章

相关专题

Anthropic170 篇相关文章large language models143 篇相关文章

时间归档

May 20261813 篇已发布文章

延伸阅读

AI_glue:开源审计阀门,重塑企业AI治理格局一款名为AI_glue的全新开源工具,为企业提供即插即用的审计与治理层,无缝嵌入OpenAI和Anthropic API构建的应用。它作为中间件,无需修改任何代码即可实现实时日志记录、内容过滤与策略执行,直击大语言模型快速部署背后日益严峻的Anthropic 夺走 OpenAI 企业 AI 王座:信任赢得桂冠Anthropic 首次在企业 AI 市场份额上超越 OpenAI,占据 47% 的部署量,而 OpenAI 仅为 38%。这一逆转标志着企业 AI 的优先考量从技术炫技转向可审计、安全且可预测的智能。幻觉危机:AI自信的谎言如何威胁企业级应用一项里程碑式的大规模研究彻底打破了“大语言模型幻觉只是罕见边缘案例”的幻觉。在医学、法律和金融等关键领域,模型以惊人的自信捏造信息的比例高达27%,形成了连专家都无法可靠识别的“自信-准确悖论”。AI泡沫未破:一场残酷的价值重估正在重塑行业格局AI泡沫并未破裂——它正在经历一场剧烈的价值重估。我们的分析显示,企业API收入正以超预期速度飙升,推理成本呈指数级下降,而真正的危险并非行业崩溃,而是那些未能构建可持续收入流的公司将陷入漫长的寒冬。

常见问题

这次模型发布“Anthropic Admits LLMs Are Bullshit Machines: Why AI Must Embrace Uncertainty”的核心内容是什么?

In an internal video that leaked to the public, Anthropic researchers made a stark admission: large language models are fundamentally 'bullshit generators.' They are not designed t…

从“Why do large language models hallucinate even with RAG?”看,这个模型发布为什么重要?

The confession from Anthropic cuts to the core of how large language models actually work. At the architectural level, a transformer-based LLM is a next-token prediction engine. During training, it is fed trillions of to…

围绕“Can RLHF ever fix the bullshit problem in AI?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。