技术深度解析
关于潜在推理的技术论证,关键在于基于Transformer的LLM的基本架构。当模型处理一个提示时,它并非‘用英语思考’。它将输入标记转化为高维嵌入,然后通过数十层注意力机制和前馈网络进行传播。在每一层,表征都会被更新。最终的输出标记是从最后一层对最后一个输入标记的表征所生成的概率分布中采样得出的。
思维链提示的工作原理是强制模型在生成最终答案之前先生成中间标记。关键洞见在于,这些中间标记*同样*是输出,它们生成自模型在该序列点上的内部状态。它们并非导致该状态的计算过程的直接读数。真正的‘推理’——非线性变换、通过注意力头进行的信息路由、特定知识电路的激活——完全发生在潜在空间内。思维链文本是将这一系列复杂内部状态顺序投射到模型词汇表这一狭窄通道的结果。
支持这一观点的证据来自多个研究方向:
1. 对内部状态的干预:研究人员直接操纵模型内部激活的实验(例如,使用激活加法或导向向量等技术),可以在*不改变思维链文本*的情况下 drastically 改变最终答案,或者可以从一个看似有缺陷的思维链中产生正确答案。这证明了叙事与计算结果之间的脱钩。
2. 解释的忠实性:评估思维链解释‘忠实性’的研究发现,它们通常是对模型决策过程不忠实或不完整的总结。模型可以为其通过不同(可能是有缺陷的)内部路径得出的答案,生成一个听起来合理的思维链。
3. 机械可解释性:像Anthropic在字典学习方面的工作,旨在将激活分解为人类可理解的‘特征’,揭示了概念和推理步骤以跨越多神经元的稀疏激活模式存在,而非离散的标记。
探索这些想法的一个关键开源仓库是Neel Nanda的TransformerLens库。该工具允许研究人员轻松地对HuggingFace Transformer模型的内部激活进行干预,从而能够直接对潜在状态进行实验。其日益增长的人气(超过2.5k GitHub星标)反映了研究界正将焦点转向探究输出文本之外的世界。
| 评估方法 | 衡量内容 | 若推理是潜在的,则存在的潜在缺陷 |
|---|---|---|
| 思维链增强基准测试(如GSM8K-CoT) | *给定*思维链轨迹下的最终答案质量 | 奖励擅长生成有说服力的推理*叙事*的模型,而不一定是推理质量本身。 |
| 忠实性指标 | 思维链文本与归因分数(如注意力、梯度)之间的一致性 | 假设文本是忠实的轨迹,这可能从根本上就是错误的。 |
| 潜在干预测试 | 通过编辑内部状态改变输出的能力 | 直接测试潜在表征的因果作用,绕开文本叙事。 |
数据启示:当前主流的评估套件建立在文本推理透明度的假设之上。上表展示了潜在推理范式如何暴露其弱点,表明需要基于因果干预和状态操纵的新基准。
关键参与者与案例研究
向潜在推理的转变正由企业研究实验室和学术机构共同推动,各自有着不同的战略动机。
Anthropic一直是最高调的支持者。他们的宪法AI和机械可解释性研究从根本上基于这样一个理念:我们必须理解和影响内部状态才能实现有效的对齐。像Chris Olah这样的研究人员将这一挑战框定为‘模型心理学’——理解内部认知结构,而不仅仅是行为输出。他们在扩展单义性(将神经元激活分解为可解释的特征)方面的工作,正是直接解读模型潜在心智的尝试。
OpenAI虽然更侧重于能力扩展,但也投资了类似方向。他们现已解散的‘超级对齐’团队探索了弱到强泛化和监督技术,这隐含着应对评估超级智能模型的问题,这些模型的内部推理在文本层面可能难以捉摸。他们开发GPT-4系统卡以及分析其‘寻求权力的潜力’时,都需要超越输出文本,审视训练中涌现出的行为模式。
Google DeepMind通过AI安全性和可靠性的视角来处理这个问题。他们在*