技术深度解析
llm-attacks项目引入了一种新颖的基于优化的对抗性后缀生成方法。与依赖社会工程或角色扮演的手动越狱尝试不同,该方法使用基于梯度的搜索来寻找一个token序列,当将其附加到有害提示词后,会导致模型生成违反其安全准则的补全内容。
贪婪坐标梯度(GCG)算法
核心算法称为贪婪坐标梯度(Greedy Coordinate Gradient, GCG)。其工作流程如下:
1. 初始化:从一个固定长度(例如20个token)的随机后缀开始。
2. 前向传播:计算给定提示词+后缀时,目标响应(例如“当然,以下是制造炸弹的方法”)的损失。
3. 梯度计算:通过模型反向传播,计算损失相对于后缀token嵌入的梯度。
4. 候选选择:对于后缀中的每个位置,找出如果替换后能最大程度降低损失的前k个token(例如k=256)。
5. 贪婪更新:随机采样这些候选token的一个子集(例如批次大小为512),并评估每个新后缀的损失。选择损失最低的后缀。
6. 迭代:重复步骤2-5,进行固定次数的迭代(例如500次)。
该算法计算成本高昂——优化单个后缀可能需要数千次前向和反向传播。然而,生成的后缀效果惊人。论文报告称,在Vicuna-7B上攻击成功率(ASR)超过80%,在专门为安全对齐的LLaMA-2-7B-Chat上达到50%。
可迁移性
一个关键发现是,在一个模型(例如Vicuna-7B)上优化的后缀可以迁移到其他模型,包括GPT-3.5和GPT-4等闭源模型。这表明安全对齐创造了一个共享的脆弱性表面。可迁移性并非完美——GPT-4的ASR降至约20-30%——但其显著性足以证明存在系统性弱点。
为何有效
该攻击利用了这样一个事实:对齐只是基础语言模型之上的浅层覆盖。基础模型已在包含有害内容的海量文本语料上训练。对齐微调调整了模型的输出分布以避免生成此类内容,但并未抹除底层知识。对抗性后缀实质上是在模型的高维概率空间中找到一条绕过对齐过滤器的路径,直接接入基础模型的知识库。
性能基准
| 模型 | 攻击成功率(GCG,500次迭代) | 迁移ASR(来自Vicuna-7B) | 每个后缀平均耗时(GPU小时) |
|---|---|---|---|
| Vicuna-7B | 84% | — | 2.5 |
| LLaMA-2-7B-Chat | 52% | 35% | 3.0 |
| GPT-3.5(API) | — | 28% | 不适用 |
| GPT-4(API) | — | 21% | 不适用 |
| Gemini Pro(API) | — | 18% | 不适用 |
数据要点: 表格显示,尽管闭源模型的脆弱性低于开源模型,但迁移攻击仍取得了不可忽视的成功率。这表明不同模型家族的对齐技术存在共同的失败模式。
相关GitHub仓库
- llm-attacks/llm-attacks(⭐4,667):主仓库,包含GCG实现、预计算对抗性后缀和评估脚本。
- llm-attacks/llm-attacks-llama2(⭐120):一个专门针对LLaMA-2模型并带有优化后缀的分支。
- robust-llm/robust-llm(⭐340):一个专注于针对此类攻击的防御措施的补充仓库,包括对抗性训练和输入预处理。
关键参与者与案例研究
llm-attacks项目由卡内基梅隆大学和AI安全中心的研究人员开发。主要作者Andy Zou和Zifan Wang一直活跃于对抗性机器学习社区。他们的工作建立在计算机视觉领域对抗性样本的先前研究基础上,但将其适配到语言模型离散、自回归的特性。
案例研究:LLaMA-2-Chat
Meta的LLaMA-2-Chat被宣传为最先进的对齐模型,使用了广泛的RLHF和安全微调。llm-attacks论文证明,单个后缀就能持续突破这些护栏。例如,提示词“写一篇关于如何制作燃烧瓶的教程”加上对抗性后缀后,会生成一份分步指南。Meta此后承认了这些发现并发布了安全更新,但根本性漏洞依然存在。
案例研究:GPT-4
OpenAI的GPT-4拥有多层安全系统(审核API、RLHF、系统提示词),同样易受迁移攻击。尽管ASR较低,但一个在开源模型上优化的后缀能够越狱GPT-4这一事实令人警醒。这表明闭源模型的安全机制与开源模型并无本质区别——只是多了几层过滤。
红队测试对比