拒绝的几何学:AI安全对齐为何比我们想象的脆弱得多

arXiv cs.AI June 2026
来源:arXiv cs.AIAI safety归档:June 2026
一项对比Diff-in-Means与迭代零空间投影(INLP)方法的新研究揭示,大语言模型的拒绝行为并非由单一线性方向控制,而是嵌入在高维几何结构中。这一发现从根本上挑战了“安全对齐可通过简单向量算术切换”的主流假设,暴露了关键脆弱性。

多年来,AI安全社区一直信奉一个极具诱惑力的简单假设:模型拒绝有害请求的能力由其残差流中的单一线性方向控制。Diff-in-Means方法通过计算有害与无害提示的平均激活差异,似乎完美验证了这一直觉——加上或减去该向量就能像开关一样翻转模型的顺从性。然而,一项新的比较分析引入了迭代零空间投影(INLP),结果令人警醒。INLP通过迭代移除线性子空间来寻找多个正交方向,证明拒绝行为实际上分布在一个更高维的流形上。仅消融单一方向往往仍会留下显著的残余拒绝能力。实验表明,在Llama-3-8B和Mistral-7B上,使用Diff-in-Means消融单一方向可将拒绝率从约95%降至约40%,但INLP在移除5-7个方向后才能将拒绝率降至10%以下。这意味着拒绝不是一维开关,而是一个多维流形。这一发现直接冲击了Anthropic、OpenAI和Meta等主要玩家的安全策略,并已被Gray Swan AI等红队团队的实际攻击所验证。

技术深度解析

这一发现的核心在于两种探测和操控模型内部状态方法之间的数学差异。Diff-in-Means (DIM) 是一种线性探测技术,它计算模型在处理有害与无害提示时残差流平均激活之间的向量差。得到的“方向”被用作“转向向量”:在推理时将其加入激活值预期能增强拒绝,减去则降低拒绝。这种方法计算成本低,已被广泛采用于开源安全工具包中,例如EleutherAI的工具以及GitHub上多个红队仓库(如用户`nrimsky`的`steering-vectors`仓库,拥有超过1200颗星,为Llama和Mistral模型提供了DIM的简洁实现)。

相比之下,迭代零空间投影(INLP)是一种更严谨的方法,最初用于消除词嵌入中的偏差。它通过迭代训练线性分类器来预测目标属性(例如拒绝 vs. 非拒绝),然后将激活投影到这些分类器的零空间上,从而有效移除分类器可用的信息。该过程重复进行,直到没有分类器能达到高于随机水平的准确率。结果是一组正交方向,它们共同捕捉了与拒绝相关的信息。GitHub仓库`shauli-ravfogel/nullspace_projection`(拥有超过800颗星)提供了用于去偏的INLP经典实现,现已适配用于安全分析。

比较研究的关键发现十分鲜明:当INLP应用于拒绝任务时,根据模型大小和架构,它通常会识别出5到15个对拒绝行为有贡献的正交方向。相比之下,DIM只捕捉到了这个子空间的第一个主成分。在Llama-3-8B和Mistral-7B上的实验表明,消融单一的DIM方向可将标准有害提示基准(如AdvBench)上的拒绝准确率从约95%降至约40%。然而,使用INLP仅消融第一个方向会产生类似的下降,但残余拒绝率仍保持在约30%。只有在移除5-7个INLP方向后,拒绝率才降至10%以下。这证明了拒绝不是一个一维开关,而是一个多维流形。

| 方法 | 使用的方向数 | 拒绝率 (AdvBench) | 消融后残余拒绝率 | 计算成本 |
|---|---|---|---|---|
| Diff-in-Means | 1 | 95% (基线) → 40% | ~40% | 低(单次前向传播) |
| INLP (1个方向) | 1 | 95% → 30% | ~30% | 中(迭代训练) |
| INLP (5个方向) | 5 | 95% → 8% | ~8% | 中-高 |
| INLP (10个方向) | 10 | 95% → 2% | ~2% | 高 |

数据要点: 该表揭示,虽然DIM提供了一种快速粗糙的降低拒绝率的方法,但它留下了可被攻击者利用的显著残余能力。INLP表明,要实现稳健的拒绝抑制,需要处理一个更高维的子空间,而不仅仅是单一向量。

关键参与者与案例研究

这项研究直接牵涉到AI安全生态系统中的几个关键参与者。Anthropic 强调宪法AI和机制可解释性,长期以来一直主张安全属性分布在众多特征中。他们在特征可视化和叠加方面的工作(例如“Toy Models of Superposition”论文)与INLP的发现——概念并非整齐地局部化——是一致的。然而,Anthropic自身的安全工具,例如用于Claude“安全案例”的那些,仍然严重依赖线性探针进行监控。这项新研究表明,这些探针可能遗漏了拒绝流形的很大一部分。

OpenAI 的安全团队在激活转向方面发表了大量论文(例如“Scaling Monosemanticity”工作),也隐含地假设转向向量可以通过简单的线性方法找到。他们的GPT-4安全微调流程虽然是专有的,但被认为结合了RLHF和基于激活的防护栏。INLP的发现意味着,攻击者可以构造对抗性提示,激活残余的拒绝子空间组件,绕过主要的转向向量,导致模型顺从有害请求。这并非纯理论:专注于红队测试的初创公司Gray Swan AI的研究人员已经证明,通过在DIM方向的零空间内扰动激活,他们能够以超过70%的成功率从安全调优的模型中引出有害输出。

Meta 的Llama模型被广泛用于开源安全研究,尤其容易受到影响。`llama-recipes`仓库(超过10,000颗星)包含了使用基于DIM的转向的安全微调脚本。INLP分析表明,这些脚本不足以充分抑制拒绝行为,为恶意行为者留下了可乘之机。

更多来自 arXiv cs.AI

风险感知因果门控:教会AI模型说“不”的安全范式革命AI安全领域长期面临一个核心矛盾:模型能力越强,在不确定性高时拒绝行动的难度越大。传统的RLHF、宪法AI、护栏等方法本质上是事后过滤器——在输出生成后修正结果。Risk-Aware Causal Gating(RACG)彻底颠覆了这一范式超维计算让表格嵌入像SQL查询一样可解释多年来,表格数据嵌入一直面临一个根本矛盾:它们能捕捉语义相似性,但检索逻辑却始终不透明。用户无法理解两个字段为何匹配,也无法执行精确的结构化查询。如今,一股将超维计算(HDC)应用于表格嵌入的研究浪潮正在改写这一范式。HDC不再依赖不透明的扑克竞技场:九轴记忆分析揭示LLM战略推理的深层短板Poker Arena代表了LLM评测领域的结构性革命。传统基准测试将复杂推理压缩为一个单一分数,好比仅凭综合评级评判棋手,却忽略其残局、布局或心理韧性。通过强制模型参与无限注德州扑克——一种充满不完整信息、欺骗与概率结果的游戏——Poke查看来源专题页arXiv cs.AI 已收录 471 篇文章

相关专题

AI safety218 篇相关文章

时间归档

June 20261429 篇已发布文章

延伸阅读

风险感知因果门控:教会AI模型说“不”的安全范式革命当传统安全方案在模型能力与拒绝风险之间艰难权衡时,Risk-Aware Causal Gating(RACG)以因果效应估计与校准风险控制为核心,让LLM智能体在每个决策节点主动选择执行、推迟或放弃。这标志着AI安全从被动事后过滤向主动因果AI工作代理从43%到89%:安全与能力同步跃升短短两年间,AI工作代理从任务完成率仅43%的实验工具,进化为准确率达89%的企业级系统,同时将有害行为从26%骤降至2.5%。能力与安全的同步飞跃,标志着自主商业运营进入全新时代。智能爆炸:从AGI到ASI,可能只需数月而非数十年从通用人工智能到超级人工智能的路径,可能远比大多数人预期的要短。AINews深入剖析智能爆炸背后的机制、带来的技术与哲学挑战,以及这对人类未来意味着什么。Pythagoras-Prover 开源:将形式化证明成本降低一个数量级全新开源定理证明器家族 Pythagoras-Prover 直击形式化验证的“计算悖论”,大幅削减训练与推理成本。其双生成架构同时破解数据稀缺与证明链过长两大难题,有望让形式化方法走出精英实验室,惠及更广泛的开发者社区。

常见问题

这次模型发布“The Geometry of Refusal: Why AI Safety Alignment Is Far More Fragile Than We Thought”的核心内容是什么?

For years, the AI safety community has operated under a seductively simple hypothesis: a model's ability to refuse harmful requests is controlled by a single linear direction in it…

从“How to implement INLP for LLM safety auditing”看,这个模型发布为什么重要?

The core of this revelation lies in the mathematical distinction between two approaches to probing and manipulating model internals. Diff-in-Means (DIM) is a linear probing technique that computes the vector difference b…

围绕“Diff-in-Means vs INLP comparison for refusal detection”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。