技术深度解析
在Transformer中寻找电路的探索,依赖于一套超越相关性特征可视化、致力于建立因果机制的可解释性方法工具箱。其中主要技术是激活修补(或称因果干预)。研究人员让模型进行两次前向传播:一次使用能产生正确答案的‘干净’输入,另一次使用会导致错误的‘污染’输入。通过系统性地将干净运行中的单个神经元或注意力头激活值替换到污染运行中,他们可以精确定位哪些组件对正确输出负有因果责任。当一组组件能持续且显著地恢复模型性能时,它就被识别为该任务的候选电路。
与此互补的是路径归因,它追踪每个输入词元通过特定的注意力头和MLP层对最终输出的贡献。像 `transformer_lens` 库(GitHub开源仓库 `neelnanda-io/TransformerLens`)这样的工具起到了关键作用。该仓库为在Hugging Face模型上运行这些因果实验提供了简洁的接口,其超过3.5k的星标数也反映了专注于机械可解释性的社区正在不断壮大。
从架构上看,已发现的电路通常遵循可预测的模式。一个常见的模式是归纳电路,它对上下文学习至关重要。该电路通常涉及一个‘前词元头’,它将一个词元的表示移动到特定位置,随后一个‘归纳头’会关注回那个先前的实例,从而使模型能够识别并延续模式。对于逻辑推理,则会出现更复杂的电路。研究人员已经识别出三段论推理电路,其中包含专门用于管理前提关系(例如“所有A都是B”)并在多个层间应用演绎规则的注意力头。
近期的工作已开始量化这些孤立电路的性能和效率。下表总结了针对特定任务,在一个中型模型(如Pythia-12B)上进行电路分析的基准测试结果,比较了完整模型的性能与仅激活已识别电路的修补模型的性能。
| 推理任务 | 完整模型准确率 | 仅电路修补准确率 | 电路规模(参数占比) |
|---|---|---|---|
| 3步思维链 (GSM8K) | 62.1% | 58.7% | ~0.8% |
| 逻辑演绎 (三段论) | 78.5% | 75.2% | ~0.3% |
| 事实回忆 (国家首都) | 91.3% | 88.9% | ~0.5% |
| 代词消解 (Winogrande) | 74.8% | 72.1% | ~0.1% |
数据启示: 数据显示,模型参数中极小的一部分(通常不到1%)对特定推理任务的大部分性能负有因果责任。这证明了功能专业化和模块化达到了惊人的程度,挑战了完全分布式表征的观念。完整模型与仅电路修补模型之间微小的性能差距表明,这些电路是相关能力的主要(尽管非唯一)驱动因素。
关键参与者与案例研究
机械可解释性与电路发现领域由专注的研究实验室和大型AI组织内的个人共同引领。Anthropic 的可解释性团队,包括 Chris Olah 和 `circuits-vis` 项目背后的团队,一直是该领域的奠基者,他们发布了关于玩具模型中电路的详细分析,并将这些技术扩展到 Claude 模型。他们关于“普遍性”(即相似数据训练的不同模型中会发展出相似电路的观点)的研究是该领域的基石。
在 OpenAI,由 Jan Leike 等人领导的超级对齐团队的可解释性研究,专注于可扩展的监督以及定位与真实性和欺骗相关的电路。独立研究员 Neel Nanda(前 Google DeepMind 成员)对开源社区起到了关键作用。他的 `TransformerLens` 库以及剖析 GPT-2 Small 和 Pythia 模型中电路的广泛博客文章,使这项研究得以普及。
一个里程碑式的案例研究是在 GPT-2 系列模型中发现并复现了 “间接宾语识别”电路。该电路解决诸如“当约翰和玛丽去商店时,约翰给了___一本书。”这类任务。研究人员细致地绘制了该电路:一个注意力头识别主语(“约翰”),另一个复制该词元的信息,第三个头将其置于答案的正确位置(“玛丽”)。该电路已成为可解释性技术的标准基准。
更具雄心地,EleutherAI 和 斯坦福大学基础模型研究中心 的研究人员尝试了电路移植。在一项实验中,他们从一个在数学任务上微调过的模型中提取了一个多位数加法电路,并尝试将其关键的注意力头移植到一个基础模型中。