技术深度解析
自然语言自编码器(NLAEs)代表了与以往可解释性技术的重大分野。传统方法如探针分类器或激活最大化需要人工定义的标签或手工设计的特征,限制了其可扩展性并引入了潜在偏差。相比之下,NLAEs是一种直接应用于模型内部激活的无监督表示学习形式。
其架构看似简单。核心上,NLAE是一个训练用于执行压缩-重建任务的神经网络。给定来自Claude的隐藏状态向量序列——即每个token在特定层的激活——编码器将这一高维表示压缩为低维潜在空间。解码器随后从这一压缩表示中重建原始激活序列。然而,关键创新在于解码器被约束为以自然语言token的形式产生输出。这一约束迫使潜在空间与人类可读的语言结构对齐。
形式上,设h_t为Claude特定层在时间步t的隐藏状态。NLAE编码器E将序列{h_1, h_2, ..., h_T}映射到潜在向量z。解码器D随后将z映射到输出token序列{y_1, y_2, ..., y_M},其中M可能与T不同。训练目标有两方面:(1) 最小化原始隐藏状态与解码器内部表示之间的重建误差;(2) 在语言模型先验下最大化输出token序列的似然。这一双重目标确保压缩后的潜在表示既能捕捉原始激活的信息内容,又能以自然语言表达。
NLAE最令人印象深刻的特点之一是其粒度。研究人员已证明,NLAE可以针对单个神经元、注意力头或整个层进行训练。当针对单个神经元在token间的激活模式进行训练时,解码出的句子往往揭示该神经元所调谐的具体概念——例如,一个对与“温度”相关词汇强烈激活的神经元,会解码出关于热、冷或天气的句子。当针对注意力头进行训练时,解码文本揭示该头正在执行的关系推理,如主谓一致或共指消解。在层级别,解码文本捕捉模型正在进行的抽象推理步骤。
一个关键的技术挑战是潜在空间与自然语言之间的对齐。解码器必须学习将任意激活模式映射为连贯的英文句子,这需要足够表达力的潜在空间和仔细的正则化。据称,Anthropic团队使用了变分自编码器(VAE)框架的一个变体,在潜在空间上采用高斯先验,并结合预训练语言模型作为解码器以确保流畅性。编码器是一个简单的前馈网络,使得训练相对轻量——对于一个70B参数模型的单层,在单个GPU上只需数小时。
| NLAE变体 | 训练目标 | 解码输出示例 | 重建准确率(余弦相似度) | 训练时间(GPU小时) |
|---|---|---|---|---|
| 神经元级别 | 单个神经元激活 | "该神经元对与空间位置相关的词汇激活:左、右、上、下。" | 0.89 | 1.2 |
| 注意力头级别 | 注意力头输出 | "该头正在执行主谓一致,将'the cat'与'runs'连接。" | 0.92 | 2.5 |
| 层级别 | 完整隐藏状态序列 | "模型正在构建推理链:首先识别问题类型,然后检索相关事实,最后组合答案。" | 0.85 | 8.0 |
数据要点: 重建准确率在所有级别均保持较高水平,其中注意力头的解码最为忠实。这表明注意力机制具有比单个神经元更结构化、更类似语言的内部表示,而单个神经元可能噪声更大。层级别解码虽然准确率略低,但提供了最全面的推理视图,因此对安全分析最有价值。
对于有兴趣尝试类似技术的读者,开源仓库`anthropic-interpretability/nlae-baseline`(目前在GitHub上约2,300颗星)提供了一个简化版NLAE的参考实现,该实现针对一个较小的1.3B参数模型进行训练。该仓库包含训练脚本、预训练检查点以及一个用于探索解码激活的可视化仪表板。虽然它尚不支持像Claude 3.5 Opus这样的大型模型,但作为研究人员的绝佳起点。
关键参与者与案例研究
Anthropic是该领域的明确领导者,于2025年初发表了关于NLAEs的基础论文。这项工作由其可解释性团队主导,团队成员包括