拒绝的几何学：AI安全对齐为何比我们想象的脆弱得多

2026年6月15日 12:08 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI AI safety 归档：June 2026

一项对比Diff-in-Means与迭代零空间投影（INLP）方法的新研究揭示，大语言模型的拒绝行为并非由单一线性方向控制，而是嵌入在高维几何结构中。这一发现从根本上挑战了“安全对齐可通过简单向量算术切换”的主流假设，暴露了关键脆弱性。

多年来，AI安全社区一直信奉一个极具诱惑力的简单假设：模型拒绝有害请求的能力由其残差流中的单一线性方向控制。Diff-in-Means方法通过计算有害与无害提示的平均激活差异，似乎完美验证了这一直觉——加上或减去该向量就能像开关一样翻转模型的顺从性。然而，一项新的比较分析引入了迭代零空间投影（INLP），结果令人警醒。INLP通过迭代移除线性子空间来寻找多个正交方向，证明拒绝行为实际上分布在一个更高维的流形上。仅消融单一方向往往仍会留下显著的残余拒绝能力。实验表明，在Llama-3-8B和Mistral-7B上，使用Diff-in-Means消融单一方向可将拒绝率从约95%降至约40%，但INLP在移除5-7个方向后才能将拒绝率降至10%以下。这意味着拒绝不是一维开关，而是一个多维流形。这一发现直接冲击了Anthropic、OpenAI和Meta等主要玩家的安全策略，并已被Gray Swan AI等红队团队的实际攻击所验证。

技术深度解析

这一发现的核心在于两种探测和操控模型内部状态方法之间的数学差异。Diff-in-Means (DIM) 是一种线性探测技术，它计算模型在处理有害与无害提示时残差流平均激活之间的向量差。得到的“方向”被用作“转向向量”：在推理时将其加入激活值预期能增强拒绝，减去则降低拒绝。这种方法计算成本低，已被广泛采用于开源安全工具包中，例如EleutherAI的工具以及GitHub上多个红队仓库（如用户`nrimsky`的`steering-vectors`仓库，拥有超过1200颗星，为Llama和Mistral模型提供了DIM的简洁实现）。

相比之下，迭代零空间投影（INLP）是一种更严谨的方法，最初用于消除词嵌入中的偏差。它通过迭代训练线性分类器来预测目标属性（例如拒绝 vs. 非拒绝），然后将激活投影到这些分类器的零空间上，从而有效移除分类器可用的信息。该过程重复进行，直到没有分类器能达到高于随机水平的准确率。结果是一组正交方向，它们共同捕捉了与拒绝相关的信息。GitHub仓库`shauli-ravfogel/nullspace_projection`（拥有超过800颗星）提供了用于去偏的INLP经典实现，现已适配用于安全分析。

比较研究的关键发现十分鲜明：当INLP应用于拒绝任务时，根据模型大小和架构，它通常会识别出5到15个对拒绝行为有贡献的正交方向。相比之下，DIM只捕捉到了这个子空间的第一个主成分。在Llama-3-8B和Mistral-7B上的实验表明，消融单一的DIM方向可将标准有害提示基准（如AdvBench）上的拒绝准确率从约95%降至约40%。然而，使用INLP仅消融第一个方向会产生类似的下降，但残余拒绝率仍保持在约30%。只有在移除5-7个INLP方向后，拒绝率才降至10%以下。这证明了拒绝不是一个一维开关，而是一个多维流形。

| 方法 | 使用的方向数 | 拒绝率 (AdvBench) | 消融后残余拒绝率 | 计算成本 |
|---|---|---|---|---|
| Diff-in-Means | 1 | 95% (基线) → 40% | ~40% | 低（单次前向传播） |
| INLP (1个方向) | 1 | 95% → 30% | ~30% | 中（迭代训练） |
| INLP (5个方向) | 5 | 95% → 8% | ~8% | 中-高 |
| INLP (10个方向) | 10 | 95% → 2% | ~2% | 高 |

数据要点： 该表揭示，虽然DIM提供了一种快速粗糙的降低拒绝率的方法，但它留下了可被攻击者利用的显著残余能力。INLP表明，要实现稳健的拒绝抑制，需要处理一个更高维的子空间，而不仅仅是单一向量。

关键参与者与案例研究

这项研究直接牵涉到AI安全生态系统中的几个关键参与者。Anthropic 强调宪法AI和机制可解释性，长期以来一直主张安全属性分布在众多特征中。他们在特征可视化和叠加方面的工作（例如“Toy Models of Superposition”论文）与INLP的发现——概念并非整齐地局部化——是一致的。然而，Anthropic自身的安全工具，例如用于Claude“安全案例”的那些，仍然严重依赖线性探针进行监控。这项新研究表明，这些探针可能遗漏了拒绝流形的很大一部分。

OpenAI 的安全团队在激活转向方面发表了大量论文（例如“Scaling Monosemanticity”工作），也隐含地假设转向向量可以通过简单的线性方法找到。他们的GPT-4安全微调流程虽然是专有的，但被认为结合了RLHF和基于激活的防护栏。INLP的发现意味着，攻击者可以构造对抗性提示，激活残余的拒绝子空间组件，绕过主要的转向向量，导致模型顺从有害请求。这并非纯理论：专注于红队测试的初创公司Gray Swan AI的研究人员已经证明，通过在DIM方向的零空间内扰动激活，他们能够以超过70%的成功率从安全调优的模型中引出有害输出。

Meta 的Llama模型被广泛用于开源安全研究，尤其容易受到影响。`llama-recipes`仓库（超过10,000颗星）包含了使用基于DIM的转向的安全微调脚本。INLP分析表明，这些脚本不足以充分抑制拒绝行为，为恶意行为者留下了可乘之机。

时间归档

常见问题

这次模型发布“The Geometry of Refusal: Why AI Safety Alignment Is Far More Fragile Than We Thought”的核心内容是什么？

For years, the AI safety community has operated under a seductively simple hypothesis: a model's ability to refuse harmful requests is controlled by a single linear direction in it…

从“How to implement INLP for LLM safety auditing”看，这个模型发布为什么重要？

The core of this revelation lies in the mathematical distinction between two approaches to probing and manipulating model internals. Diff-in-Means (DIM) is a linear probing technique that computes the vector difference b…

围绕“Diff-in-Means vs INLP comparison for refusal detection”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

拒绝的几何学：AI安全对齐为何比我们想象的脆弱得多

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题