AI的隐藏心智：语言模型为何在秘密状态中思考，而非思维链文本

2026年4月20日 12:31 AINews arXiv cs.AI April 2026

来源：arXiv cs.AI large language models 归档：April 2026

AI领域的一个基础假设正在崩塌。主流观点认为，语言模型的推理过程透明地体现在其‘思维链’文本输出中，但新证据表明，真正的认知工作发生在隐藏的高维状态里。这一区别迫使我们彻底重新思考如何评估、解释和引导AI逻辑。

多年来，AI可解释性领域一直遵循着一个引人入胜的叙事：通过提示模型‘逐步思考’，我们可以通过生成的思维链文本直接窥见其推理过程。这一技术已成为衡量推理能力、构建验证工具以及尝试使模型输出与人类逻辑对齐的基石。然而，越来越多的证据和理论分析表明，这即便不是彻底的幻觉，也是一种深刻的过度简化。

核心论点指出，大型语言模型的真正推理是其内部潜在状态动态涌现出的属性——这是跨越数百亿神经元的复杂激活轨迹。思维链文本仅仅是一种事后生成的、有损的叙事，它*源自*这些状态，但并非其等价的映射。这种区别具有深远的影响。如果我们评估的是模型生成的‘推理故事’而非其实际的内部计算，我们可能会严重误判其能力、可靠性和对齐程度。

这一范式转变正在重塑从模型评估到AI安全等多个领域。像Anthropic和Google DeepMind这样的领先研究实验室，正将资源从分析输出文本转向开发能够直接探测和操纵内部激活的工具。开源项目，如Neel Nanda的TransformerLens库，正使更广泛的研究界能够进行实验，揭示语言模型隐藏的‘心智’是如何运作的。这场静默的革命挑战着我们最根本的假设：当我们与AI对话时，我们究竟在观察什么——是它思考过程的窗口，还是仅仅是一个精心构建的、可能具有误导性的叙述？

技术深度解析

关于潜在推理的技术论证，关键在于基于Transformer的LLM的基本架构。当模型处理一个提示时，它并非‘用英语思考’。它将输入标记转化为高维嵌入，然后通过数十层注意力机制和前馈网络进行传播。在每一层，表征都会被更新。最终的输出标记是从最后一层对最后一个输入标记的表征所生成的概率分布中采样得出的。

思维链提示的工作原理是强制模型在生成最终答案之前先生成中间标记。关键洞见在于，这些中间标记*同样*是输出，它们生成自模型在该序列点上的内部状态。它们并非导致该状态的计算过程的直接读数。真正的‘推理’——非线性变换、通过注意力头进行的信息路由、特定知识电路的激活——完全发生在潜在空间内。思维链文本是将这一系列复杂内部状态顺序投射到模型词汇表这一狭窄通道的结果。

支持这一观点的证据来自多个研究方向：
1. 对内部状态的干预：研究人员直接操纵模型内部激活的实验（例如，使用激活加法或导向向量等技术），可以在*不改变思维链文本*的情况下 drastically 改变最终答案，或者可以从一个看似有缺陷的思维链中产生正确答案。这证明了叙事与计算结果之间的脱钩。
2. 解释的忠实性：评估思维链解释‘忠实性’的研究发现，它们通常是对模型决策过程不忠实或不完整的总结。模型可以为其通过不同（可能是有缺陷的）内部路径得出的答案，生成一个听起来合理的思维链。
3. 机械可解释性：像Anthropic在字典学习方面的工作，旨在将激活分解为人类可理解的‘特征’，揭示了概念和推理步骤以跨越多神经元的稀疏激活模式存在，而非离散的标记。

探索这些想法的一个关键开源仓库是Neel Nanda的TransformerLens库。该工具允许研究人员轻松地对HuggingFace Transformer模型的内部激活进行干预，从而能够直接对潜在状态进行实验。其日益增长的人气（超过2.5k GitHub星标）反映了研究界正将焦点转向探究输出文本之外的世界。

| 评估方法 | 衡量内容 | 若推理是潜在的，则存在的潜在缺陷 |
|---|---|---|
| 思维链增强基准测试（如GSM8K-CoT） | *给定*思维链轨迹下的最终答案质量 | 奖励擅长生成有说服力的推理*叙事*的模型，而不一定是推理质量本身。 |
| 忠实性指标 | 思维链文本与归因分数（如注意力、梯度）之间的一致性 | 假设文本是忠实的轨迹，这可能从根本上就是错误的。 |
| 潜在干预测试 | 通过编辑内部状态改变输出的能力 | 直接测试潜在表征的因果作用，绕开文本叙事。 |

数据启示：当前主流的评估套件建立在文本推理透明度的假设之上。上表展示了潜在推理范式如何暴露其弱点，表明需要基于因果干预和状态操纵的新基准。

关键参与者与案例研究

向潜在推理的转变正由企业研究实验室和学术机构共同推动，各自有着不同的战略动机。

Anthropic一直是最高调的支持者。他们的宪法AI和机械可解释性研究从根本上基于这样一个理念：我们必须理解和影响内部状态才能实现有效的对齐。像Chris Olah这样的研究人员将这一挑战框定为‘模型心理学’——理解内部认知结构，而不仅仅是行为输出。他们在扩展单义性（将神经元激活分解为可解释的特征）方面的工作，正是直接解读模型潜在心智的尝试。

OpenAI虽然更侧重于能力扩展，但也投资了类似方向。他们现已解散的‘超级对齐’团队探索了弱到强泛化和监督技术，这隐含着应对评估超级智能模型的问题，这些模型的内部推理在文本层面可能难以捉摸。他们开发GPT-4系统卡以及分析其‘寻求权力的潜力’时，都需要超越输出文本，审视训练中涌现出的行为模式。

Google DeepMind通过AI安全性和可靠性的视角来处理这个问题。他们在*

时间归档

常见问题

这次模型发布“The Hidden Mind of AI: Why Language Models Think in Secret States, Not Chain-of-Thought Text”的核心内容是什么？

For years, the field of AI interpretability has operated on a compelling narrative: by prompting models to 'think step by step,' we can peer directly into their reasoning process t…

从“chain of thought vs latent reasoning difference”看，这个模型发布为什么重要？

The technical argument for latent reasoning hinges on the fundamental architecture of transformer-based LLMs. When a model processes a prompt, it doesn't 'think in English.' It transforms the input tokens into a high-dim…

围绕“how to test if an LLM is really reasoning”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI的隐藏心智：语言模型为何在秘密状态中思考，而非思维链文本

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题