Transformer电路发现揭示：LLM并非仅靠预测，而是真正在推理

一项重大的研究突破正在重塑我们对大语言模型如何执行逻辑推理的理解。与普遍认为推理能力仅仅从模型的庞大规模和参数数量中弥散涌现的假设相反，越来越多的研究表明，Transformer架构内部存在具体、可识别的子网络，专门负责离散的推理任务。这些被称为‘电路’的子网络，其功能类似于专用的逻辑门或计算模块，处理诸如思维链、事实回忆、数学推导和常识推断等操作。

核心研究方法涉及激活修补、因果追踪和路径归因等精密分析技术，以绘制信息在模型各层间的流动路径。通过这些技术，研究人员能够识别出对特定任务输出具有因果责任的关键神经元、注意力头和前馈网络层。例如，在解决多步骤数学问题时，一个独立的电路可能负责提取数字，另一个执行算术运算，第三个则管理步骤间的信息传递。这种模块化程度表明，LLM的内部运作远比‘下一个词预测’的简单描述更为复杂和结构化。

这一发现具有深远意义。首先，它为实现更可控、更可靠的AI系统开辟了道路。通过理解和可能编辑这些电路，我们可以更精准地修正模型错误或消除偏见。其次，它挑战了关于神经网络‘黑箱’本质的固有观念，证明即使在最复杂的模型中，人类可理解的算法结构依然存在。最后，它为AI安全研究提供了新工具，使我们能够审计模型是否使用了‘诚实’的推理电路，而非依赖虚假关联。随着 Anthropic、OpenAI 和独立研究者如 Neel Nanda 等团队不断推进该领域，我们正步入一个能够‘打开引擎盖’审视AI如何思考的新时代。

技术深度解析

在Transformer中寻找电路的探索，依赖于一套超越相关性特征可视化、致力于建立因果机制的可解释性方法工具箱。其中主要技术是激活修补（或称因果干预）。研究人员让模型进行两次前向传播：一次使用能产生正确答案的‘干净’输入，另一次使用会导致错误的‘污染’输入。通过系统性地将干净运行中的单个神经元或注意力头激活值替换到污染运行中，他们可以精确定位哪些组件对正确输出负有因果责任。当一组组件能持续且显著地恢复模型性能时，它就被识别为该任务的候选电路。

与此互补的是路径归因，它追踪每个输入词元通过特定的注意力头和MLP层对最终输出的贡献。像 `transformer_lens` 库（GitHub开源仓库 `neelnanda-io/TransformerLens`）这样的工具起到了关键作用。该仓库为在Hugging Face模型上运行这些因果实验提供了简洁的接口，其超过3.5k的星标数也反映了专注于机械可解释性的社区正在不断壮大。

从架构上看，已发现的电路通常遵循可预测的模式。一个常见的模式是归纳电路，它对上下文学习至关重要。该电路通常涉及一个‘前词元头’，它将一个词元的表示移动到特定位置，随后一个‘归纳头’会关注回那个先前的实例，从而使模型能够识别并延续模式。对于逻辑推理，则会出现更复杂的电路。研究人员已经识别出三段论推理电路，其中包含专门用于管理前提关系（例如“所有A都是B”）并在多个层间应用演绎规则的注意力头。

近期的工作已开始量化这些孤立电路的性能和效率。下表总结了针对特定任务，在一个中型模型（如Pythia-12B）上进行电路分析的基准测试结果，比较了完整模型的性能与仅激活已识别电路的修补模型的性能。

| 推理任务 | 完整模型准确率 | 仅电路修补准确率 | 电路规模（参数占比） |
|---|---|---|---|
| 3步思维链 (GSM8K) | 62.1% | 58.7% | ~0.8% |
| 逻辑演绎 (三段论) | 78.5% | 75.2% | ~0.3% |
| 事实回忆 (国家首都) | 91.3% | 88.9% | ~0.5% |
| 代词消解 (Winogrande) | 74.8% | 72.1% | ~0.1% |

数据启示： 数据显示，模型参数中极小的一部分（通常不到1%）对特定推理任务的大部分性能负有因果责任。这证明了功能专业化和模块化达到了惊人的程度，挑战了完全分布式表征的观念。完整模型与仅电路修补模型之间微小的性能差距表明，这些电路是相关能力的主要（尽管非唯一）驱动因素。

关键参与者与案例研究

机械可解释性与电路发现领域由专注的研究实验室和大型AI组织内的个人共同引领。Anthropic 的可解释性团队，包括 Chris Olah 和 `circuits-vis` 项目背后的团队，一直是该领域的奠基者，他们发布了关于玩具模型中电路的详细分析，并将这些技术扩展到 Claude 模型。他们关于“普遍性”（即相似数据训练的不同模型中会发展出相似电路的观点）的研究是该领域的基石。

在 OpenAI，由 Jan Leike 等人领导的超级对齐团队的可解释性研究，专注于可扩展的监督以及定位与真实性和欺骗相关的电路。独立研究员 Neel Nanda（前 Google DeepMind 成员）对开源社区起到了关键作用。他的 `TransformerLens` 库以及剖析 GPT-2 Small 和 Pythia 模型中电路的广泛博客文章，使这项研究得以普及。

一个里程碑式的案例研究是在 GPT-2 系列模型中发现并复现了 “间接宾语识别”电路。该电路解决诸如“当约翰和玛丽去商店时，约翰给了___一本书。”这类任务。研究人员细致地绘制了该电路：一个注意力头识别主语（“约翰”），另一个复制该词元的信息，第三个头将其置于答案的正确位置（“玛丽”）。该电路已成为可解释性技术的标准基准。

更具雄心地，EleutherAI 和 斯坦福大学基础模型研究中心 的研究人员尝试了电路移植。在一项实验中，他们从一个在数学任务上微调过的模型中提取了一个多位数加法电路，并尝试将其关键的注意力头移植到一个基础模型中。

时间归档

延伸阅读

常见问题

这次模型发布“Transformer Circuit Discovery Reveals How LLMs Actually Reason, Not Just Predict”的核心内容是什么？

A significant research breakthrough is reshaping our understanding of how large language models perform logical reasoning. Contrary to the prevailing assumption that reasoning emer…

从“How to implement transformer circuit analysis with Python”看，这个模型发布为什么重要？

The quest to find circuits within Transformers relies on a toolkit of interpretability methods that move beyond correlative feature visualization to establishing causal mechanisms. The primary technique is activation pat…

围绕“Difference between attention heads and reasoning circuits”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。