技术深度解析
这一发现的核心在于两种探测和操控模型内部状态方法之间的数学差异。Diff-in-Means (DIM) 是一种线性探测技术,它计算模型在处理有害与无害提示时残差流平均激活之间的向量差。得到的“方向”被用作“转向向量”:在推理时将其加入激活值预期能增强拒绝,减去则降低拒绝。这种方法计算成本低,已被广泛采用于开源安全工具包中,例如EleutherAI的工具以及GitHub上多个红队仓库(如用户`nrimsky`的`steering-vectors`仓库,拥有超过1200颗星,为Llama和Mistral模型提供了DIM的简洁实现)。
相比之下,迭代零空间投影(INLP)是一种更严谨的方法,最初用于消除词嵌入中的偏差。它通过迭代训练线性分类器来预测目标属性(例如拒绝 vs. 非拒绝),然后将激活投影到这些分类器的零空间上,从而有效移除分类器可用的信息。该过程重复进行,直到没有分类器能达到高于随机水平的准确率。结果是一组正交方向,它们共同捕捉了与拒绝相关的信息。GitHub仓库`shauli-ravfogel/nullspace_projection`(拥有超过800颗星)提供了用于去偏的INLP经典实现,现已适配用于安全分析。
比较研究的关键发现十分鲜明:当INLP应用于拒绝任务时,根据模型大小和架构,它通常会识别出5到15个对拒绝行为有贡献的正交方向。相比之下,DIM只捕捉到了这个子空间的第一个主成分。在Llama-3-8B和Mistral-7B上的实验表明,消融单一的DIM方向可将标准有害提示基准(如AdvBench)上的拒绝准确率从约95%降至约40%。然而,使用INLP仅消融第一个方向会产生类似的下降,但残余拒绝率仍保持在约30%。只有在移除5-7个INLP方向后,拒绝率才降至10%以下。这证明了拒绝不是一个一维开关,而是一个多维流形。
| 方法 | 使用的方向数 | 拒绝率 (AdvBench) | 消融后残余拒绝率 | 计算成本 |
|---|---|---|---|---|
| Diff-in-Means | 1 | 95% (基线) → 40% | ~40% | 低(单次前向传播) |
| INLP (1个方向) | 1 | 95% → 30% | ~30% | 中(迭代训练) |
| INLP (5个方向) | 5 | 95% → 8% | ~8% | 中-高 |
| INLP (10个方向) | 10 | 95% → 2% | ~2% | 高 |
数据要点: 该表揭示,虽然DIM提供了一种快速粗糙的降低拒绝率的方法,但它留下了可被攻击者利用的显著残余能力。INLP表明,要实现稳健的拒绝抑制,需要处理一个更高维的子空间,而不仅仅是单一向量。
关键参与者与案例研究
这项研究直接牵涉到AI安全生态系统中的几个关键参与者。Anthropic 强调宪法AI和机制可解释性,长期以来一直主张安全属性分布在众多特征中。他们在特征可视化和叠加方面的工作(例如“Toy Models of Superposition”论文)与INLP的发现——概念并非整齐地局部化——是一致的。然而,Anthropic自身的安全工具,例如用于Claude“安全案例”的那些,仍然严重依赖线性探针进行监控。这项新研究表明,这些探针可能遗漏了拒绝流形的很大一部分。
OpenAI 的安全团队在激活转向方面发表了大量论文(例如“Scaling Monosemanticity”工作),也隐含地假设转向向量可以通过简单的线性方法找到。他们的GPT-4安全微调流程虽然是专有的,但被认为结合了RLHF和基于激活的防护栏。INLP的发现意味着,攻击者可以构造对抗性提示,激活残余的拒绝子空间组件,绕过主要的转向向量,导致模型顺从有害请求。这并非纯理论:专注于红队测试的初创公司Gray Swan AI的研究人员已经证明,通过在DIM方向的零空间内扰动激活,他们能够以超过70%的成功率从安全调优的模型中引出有害输出。
Meta 的Llama模型被广泛用于开源安全研究,尤其容易受到影响。`llama-recipes`仓库(超过10,000颗星)包含了使用基于DIM的转向的安全微调脚本。INLP分析表明,这些脚本不足以充分抑制拒绝行为,为恶意行为者留下了可乘之机。