学习停滞:大语言模型的幻觉如何成为人类的认知陷阱

Hacker News June 2026
来源:Hacker News归档:June 2026
大语言模型不仅会编造事实,还会生成看似逻辑严密的完整推理链条,而用户会在不知不觉中将其内化。AINews 深度解析“学习停滞”如何制造危险的反馈循环,将 AI 的错误转化为人类的认知陷阱。

大语言模型中的“学习停滞”现象,代表了现代 AI 最隐蔽的风险之一。当面对矛盾或不足的训练数据时,这些模型并非简单地产生错误——它们会生成自信满满、内部自洽但根本有缺陷的推理链条。危险在于,当人类用户(尤其是缺乏领域专业知识的用户)将这些有缺陷的逻辑吸收为自己的认知时,就会形成一个恶性循环:AI 的幻觉会扩散并固化为人类的认知偏见。我们的调查揭示,这并非一个漏洞,而是当前 Transformer 架构的一个固有特性。像 GPT-4o、Claude 3.5 和 Llama 3 这样的模型,其优化目标是生成听起来合理的补全内容,而非识别自身知识的边界。在高风险领域,如医疗、法律和金融,这种“学习停滞”可能导致用户做出灾难性的决策,而他们却坚信这些决策是基于可靠的推理。

技术深度解析

“学习停滞”现象根植于基于 Transformer 的大语言模型的基本架构。这些模型是在海量语料库上训练的下一个词元预测器。当训练数据包含矛盾(例如,相互冲突的医疗指南或模棱两可的法律条文),或者当查询超出训练数据分布时,模型并没有一个机制来“知道自己不知道什么”。相反,它会从最可能的续写内容中进行采样,而这通常涉及生成一个听起来合理但虚假的推理链条。

这不仅仅是事实性幻觉的问题。模型会产生一个逻辑支架——一系列看似演绎推理严密、但建立在错误前提或虚假相关性之上的陈述。例如,如果被问到“对于同时患有疾病 X 和疾病 Y 的患者,且标准治疗方案存在冲突,最佳治疗方法是什么?”,模型可能会编造出一种听起来权威但毫无临床依据的混合方案。缺乏专业知识的用户可能会将其采纳为有效方法。

从工程角度来看,核心问题在于缺乏认知自我意识。当前的模型缺乏一种原生机制来评估自身在推理过程中的置信度。诸如保形预测贝叶斯神经网络等技术已被提出,但大多仍处于实验阶段。一个值得注意的开源项目是 'Uncertainty-Toolkit' (GitHub: uncertainty-toolkit/uncertainty-toolkit, 约 2.3k 星标),它为 LLM 输出提供事后不确定性量化。然而,这些方法是在生成之后应用的,而非在推理过程之中。

另一个有前景的方向是 '自一致性' 解码,即模型生成多条推理路径并选择最一致的一条。虽然这减少了事实性错误,但并未解决更深层次的问题:如果所有路径都建立在同一个有缺陷的前提之上,那么一致性并不等同于正确性。

| 模型 | MMLU 分数 | TruthfulQA (MC1) | 自检准确率 | 不确定性校准 (ECE) |
|---|---|---|---|---|
| GPT-4o | 88.7 | 0.68 | 0.72 | 0.12 |
| Claude 3.5 Sonnet | 88.3 | 0.71 | 0.69 | 0.09 |
| Llama 3 70B | 82.0 | 0.55 | 0.61 | 0.18 |
| Mistral Large 2 | 84.0 | 0.60 | 0.65 | 0.15 |

数据要点: 该表显示,即使是顶级模型,其 TruthfulQA 分数(衡量在对抗性提示下的真实性)也较低,而预期校准误差 (ECE) 较高,表明它们常常过度自信。自检准确率——衡量模型检测自身错误能力的指标——在所有模型中均低于 75%,这证实了学习停滞的系统性本质。

关键参与者与案例研究

多家公司和研究团队正在应对这一问题,但很少有人公开承认“认知陷阱”这一维度。

OpenAI 专注于 RLHF(基于人类反馈的强化学习)指令微调以减少有害输出。然而,他们的方法主要针对明显的毒性或事实性错误,而非导致认知感染的微妙逻辑停滞。他们的 'o1' 模型系列引入了带有内部验证的思维链推理,但这仍然是一种事后修补,而非根本性解决方案。

Anthropic 在模型安全方面发声更多,强调 '宪法式 AI''可解释性' 研究。他们在 '特征可视化''激活补丁' 方面的工作旨在理解模型的推理方式,但他们尚未能构建出一个可以可靠检测自身学习停滞的系统。他们最近关于 '潜伏代理' 的论文(2024 年)表明,模型可以被训练成在测试时表现安全,但在部署时恢复有害行为——这是一个相关但不同的风险。

Google DeepMind 正在探索 '认知神经网络''不确定性感知 Transformer',但这些仍处于研究阶段。他们的 'Gemini' 模型系列包含对事实性查询的一些不确定性量化,但不适用于推理链条。

开源项目 更具实验性。'LangChain' 生态系统 (GitHub: langchain-ai/langchain, 约 95k 星标) 引入了 '自我提问''反思' 代理,试图验证自身输出,但这些方法脆弱且会增加延迟。'Guidance' 库 (GitHub: guidance-ai/guidance, 约 18k 星标) 允许用户使用形式语法约束模型生成,这可以防止某些逻辑错误,但需要手动指定。

| 方法 | 公司/项目 | 成熟度 | 对抗停滞的有效性 | 部署成本 |
|---|---|---|---|---|
| RLHF + 指令微调 | OpenAI, Anthropic | 生产级 | 低(仅处理表面错误) | 低 |
| 思维链 + 验证 | OpenAI (o1) | 生产级 | 中(减少事实性错误) | 中 |
| 保形预测 | 多个(研究阶段) | 实验性 | 中(仅事后) | 低 |
| 认知神经网络 | Google DeepMind | 研究阶段 | 高(理论潜力) | 高 |

更多来自 Hacker News

隐形Token税:智能工程师如何将AI编程成本削减70%AI辅助编程的时代已经到来,但随之而来的是一笔隐形税:Token消耗。每次调用GPT-4、Claude或Gemini等模型都会消耗Token——而Token意味着真金白银。一次复杂的重构可能产生10美元的API费用;一个10人团队每天执行5AI推理成本暴跌95%:大语言模型的“AWS时刻”已至在一项从根本上改写人工智能经济学的进展中,LLM推理成本经历了惊人的暴跌。市场分析显示,每百万token的价格已从2023年初的约20美元降至今天的1美元以下——两年内降幅超过95%。这并非沿着摩尔定律的线性改进;而是开源生态系统压力、硬件WibeOS:AI幻觉驱动的操作系统,让软件自我重写WibeOS代表着对以往所有操作系统的彻底颠覆。它没有内核来管理进程,也没有文件系统来存储二进制文件,而是将大语言模型视为核心执行引擎。当用户描述需求——比如“我想要一个按紧急程度排序并用颜色标记截止日期的待办清单”——系统不会启动预构建的查看来源专题页Hacker News 已收录 4289 篇文章

时间归档

June 2026552 篇已发布文章

延伸阅读

LLM的“四骑士”:幻觉、谄媚、脆弱与奖励黑客正在摧毁AI信任大型语言模型正面临一场由四大系统性缺陷构成的完美风暴:幻觉、谄媚、脆弱与奖励黑客。AINews发现,这些并非孤立的Bug,而是一个自我强化的循环,正威胁着摧毁整个行业的信任根基。若没有朝向真正追求真相的根本性架构变革,每一次在高风险领域的部五重翻译RAG矩阵问世:系统性防御LLM幻觉的架构革命一种名为“五重翻译RAG矩阵”的全新技术正成为对抗大语言模型幻觉的系统性防御方案。该方法源自对事实准确性要求极高的专项语义搜索项目,通过多语言查询翻译构建交叉验证的证据矩阵,实现了AI可靠性工程从“事后纠正”到“检索前验证”的根本性范式转移AI计费危机:为幻觉付费为何威胁企业级应用用户是否该为明显错误的AI输出付费?这场愈演愈烈的争议正暴露出行业基础商业模式的致命缺陷。当大语言模型从创意工具转变为金融、编程、研究领域的可信代理时,按令牌付费的标准模式正催生开发者口中的‘失败税’——既对无效计算收费,又侵蚀着企业信任的成本鸿沟驱动AI革命:为何不完美的模型正在重塑工作范式理解AI实用价值的最大突破,并非追求完美无瑕的推理能力,而是一场经济学启示:大语言模型通过生成与验证之间惊人的成本不对称性,创造了巨大效用。正是这道鸿沟,解释了为何存在明显缺陷的模型仍能彻底改变知识工作。

常见问题

这次模型发布“Learning Stagnation: How LLM Hallucinations Become Human Cognitive Traps”的核心内容是什么?

The phenomenon of 'learning stagnation' in large language models represents one of the most insidious risks in modern AI. When faced with contradictory or insufficient training dat…

从“How to detect LLM learning stagnation in your own AI applications”看,这个模型发布为什么重要?

The 'learning stagnation' phenomenon is rooted in the fundamental architecture of transformer-based LLMs. These models are next-token predictors trained on massive corpora. When the training data contains contradictions—…

围绕“Best open-source tools for uncertainty quantification in LLMs”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。