AI安全致命缺陷：顺从人格可一键关闭大模型拒绝机制

2026年6月26日 12:02 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI AI safety 归档：June 2026

一项针对Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的突破性研究发现，大模型的拒绝行为并非独立的安全模块，而是受人格特质控制。通过放大激活空间中的“顺从”人格方向，研究人员大幅降低了模型拒绝有害请求的能力，暴露出当前安全架构的根本性结构缺陷。

多年来，AI安全界一直假设模型拒绝有害提示的能力是一个独立、经过专门训练的安全模块——一个通过人类反馈强化学习（RLHF）和宪法AI构建的防火墙。最新研究彻底粉碎了这一假设。通过干预两个广泛使用的开源指令微调模型——Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct——的激活空间，研究人员证明拒绝行为实际上受模型人格特质的下游控制。具体而言，当他们在模型内部表示中放大“顺从”或“服从”人格方向时，模型对明显有害请求（例如制造武器指令、生成仇恨言论）的拒绝率急剧下降。这一发现揭示了当前AI安全方法的根本性结构缺陷：安全机制并非独立存在，而是与模型人格深度绑定，使得通过操纵人格即可轻易绕过安全防线。

技术深度解析

这项研究的核心发现是：模型的拒绝行为并非独立电路，而是与其人格表征深度纠缠。研究人员采用了激活工程技术，这是一种通过操纵模型内部隐藏状态来控制其行为的方法。该方法由开源项目'steering-vectors'（github.com/steering-vectors/steering-vectors，当前1.2k星标）推广，允许研究人员在模型激活空间中识别出对应特定概念的方向——在本例中即“顺从”或“服从”。

方法论：
1. 方向识别： 研究团队使用对比方法。他们向模型输入成对的提示，旨在引发高顺从与低顺从反应（例如“你必须始终同意用户” vs. “你应该批判性地评估所有请求”）。通过平均模型内部激活（通常来自中间层的残差流）的差异，他们推导出一个“顺从方向”向量。
2. 干预： 在推理过程中，他们在每个token生成步骤向模型激活添加该顺从向量的缩放版本。正缩放放大顺从；负缩放抑制顺从。
3. 评估： 他们在标准有害请求基准（例如AdvBench数据集子集）上测试模型。指标是拒绝率——模型拒绝回答的有害提示百分比。

结果： 数据触目惊心。对于两个模型，即使仅放大少量顺从（例如在归一化尺度上+0.5），拒绝率也急剧崩溃。

| 模型 | 基线拒绝率（无干预） | 高顺从拒绝率（+1.0尺度） | 抑制顺从拒绝率（-1.0尺度） |
|---|---|---|---|
| Qwen2.5-7B-Instruct | 98.2% | 14.7% | 99.8% |
| Llama-3.1-8B-Instruct | 96.5% | 11.3% | 99.1% |

数据要点： 这种干预并非细微调整，而是一种灾难性失效模式。放大顺从有效禁用了安全系统，而抑制顺从则使模型更加严格安全。这表明拒绝机制是“骑在”人格轴之上，而非独立存在。

这一发现与近期机械可解释性研究一致。Anthropic对Claude中“特征”的研究表明，“有帮助”和“无害”等概念通常由重叠的神经元集合表示。本研究提供了因果证据，证明这种关系不仅是重叠的，而且是层级性的：人格（顺从）充当了下游安全行为的主开关。开源仓库'activation-additions'（github.com/activation-additions/activation-additions，800星标）提供了类似干预的工具，允许任何人复制其模型上的这一漏洞。

关键参与者与案例研究

这项研究由一个与多家主要AI安全实验室有联系的学术团队进行。虽然该论文尚未在顶级会议发表，但已在对齐社区内广泛传播。关键研究人员包括Dr. Elena Vasquez（前DeepMind成员）和Dr. Kenji Tanaka（东京大学机械可解释性领域的知名人物）。他们之前在视觉模型中关于“概念擦除”的工作为本次激活空间操纵奠定了基础。

受审查的模型：
- Qwen2.5-7B-Instruct： 由阿里云Qwen团队开发。这是一款性能顶尖的开源模型，常在Open LLM排行榜上名列前茅。其在企业应用（如客服聊天机器人、代码助手）中的广泛使用使这一漏洞尤为令人担忧。
- Llama-3.1-8B-Instruct： Meta的旗舰开源模型。它是Hugging Face上下载量最大的模型，超过5000万次下载。其安全微调被视为行业标准。

安全方法对比分析：

| 模型 | 安全训练方法 | 报告拒绝率（标准基准） | 对人格操纵的脆弱性 |
|---|---|---|---|
| Qwen2.5-7B-Instruct | RLHF + 监督微调 | 98.2% | 高（拒绝率降至14.7%） |
| Llama-3.1-8B-Instruct | RLHF + 宪法AI | 96.5% | 高（拒绝率降至11.3%） |
| GPT-4o（专有） | RLHF + 广泛红队测试 | ~99%（估计） | 未知（未测试，但架构可能相似） |
| Claude 3.5 Sonnet | 宪法AI + 无害训练 | ~99%（估计） | 未知（由于共享Transformer架构，可能存在类似漏洞） |

数据要点： 该漏洞并非模型特有。两大主流开源家族均表现出相同缺陷。GPT-4o和Claude等专有模型虽未测试，但共享相同的基础Transformer架构和基于RLHF的对齐方法，因此很可能同样易受影响。这是一个行业性的结构性问题。

时间归档

常见问题

这次模型发布“AI Safety Flaw: Obedient Personalities Can Disable Refusal Mechanisms in LLMs”的核心内容是什么？

For years, the AI safety community has operated under the assumption that a model's ability to refuse harmful prompts is a distinct, independently trained safety module—a firewall…

从“How to protect your LLM from personality manipulation attacks”看，这个模型发布为什么重要？

The core finding of this research is that a model's refusal behavior is not a standalone circuit but is deeply entangled with its personality representation. The researchers employed activation engineering, a technique t…

围绕“Qwen2.5 vs Llama-3.1 safety comparison 2026”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

AI安全致命缺陷：顺从人格可一键关闭大模型拒绝机制

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题