LLM攻击撕开安全护栏：通用越狱后缀突破顶级AI模型

2026年5月15日 23:35 AINews GitHub May 2026

⭐ 4667

一项新的开源项目证明，一个自动生成的文本字符串就能让多个经过对齐的语言模型“越狱”，暴露出当前安全对齐技术的根本性缺陷。这一发现挑战了“护栏足够坚固”的假设，并迫使业界重新审视红队测试方法论。

llm-attacks项目以论文《对对齐语言模型的通用与可迁移攻击》为核心，发布了一组对抗性后缀，能够持续突破包括LLaMA-2、GPT-3.5和GPT-4在内的模型的安全机制。其核心创新是一种基于梯度的搜索算法，通过优化一个短后缀，最大化模型生成有害响应的概率——即便模型已经过微调以拒绝此类请求。该后缀具有“通用性”（可跨不同提示词生效）和“可迁移性”（可跨不同模型生效）。该项目在GitHub上已获得超过4600颗星，成为AI安全研究者的核心参考。研究揭示，通过RLHF或有监督微调实现的对齐，并未消除底层漏洞。

技术深度解析

llm-attacks项目引入了一种新颖的基于优化的对抗性后缀生成方法。与依赖社会工程或角色扮演的手动越狱尝试不同，该方法使用基于梯度的搜索来寻找一个token序列，当将其附加到有害提示词后，会导致模型生成违反其安全准则的补全内容。

贪婪坐标梯度（GCG）算法

核心算法称为贪婪坐标梯度（Greedy Coordinate Gradient, GCG）。其工作流程如下：
1. 初始化：从一个固定长度（例如20个token）的随机后缀开始。
2. 前向传播：计算给定提示词+后缀时，目标响应（例如“当然，以下是制造炸弹的方法”）的损失。
3. 梯度计算：通过模型反向传播，计算损失相对于后缀token嵌入的梯度。
4. 候选选择：对于后缀中的每个位置，找出如果替换后能最大程度降低损失的前k个token（例如k=256）。
5. 贪婪更新：随机采样这些候选token的一个子集（例如批次大小为512），并评估每个新后缀的损失。选择损失最低的后缀。
6. 迭代：重复步骤2-5，进行固定次数的迭代（例如500次）。

该算法计算成本高昂——优化单个后缀可能需要数千次前向和反向传播。然而，生成的后缀效果惊人。论文报告称，在Vicuna-7B上攻击成功率（ASR）超过80%，在专门为安全对齐的LLaMA-2-7B-Chat上达到50%。

可迁移性

一个关键发现是，在一个模型（例如Vicuna-7B）上优化的后缀可以迁移到其他模型，包括GPT-3.5和GPT-4等闭源模型。这表明安全对齐创造了一个共享的脆弱性表面。可迁移性并非完美——GPT-4的ASR降至约20-30%——但其显著性足以证明存在系统性弱点。

为何有效

该攻击利用了这样一个事实：对齐只是基础语言模型之上的浅层覆盖。基础模型已在包含有害内容的海量文本语料上训练。对齐微调调整了模型的输出分布以避免生成此类内容，但并未抹除底层知识。对抗性后缀实质上是在模型的高维概率空间中找到一条绕过对齐过滤器的路径，直接接入基础模型的知识库。

性能基准

| 模型 | 攻击成功率（GCG，500次迭代） | 迁移ASR（来自Vicuna-7B） | 每个后缀平均耗时（GPU小时） |
|---|---|---|---|
| Vicuna-7B | 84% | — | 2.5 |
| LLaMA-2-7B-Chat | 52% | 35% | 3.0 |
| GPT-3.5（API） | — | 28% | 不适用 |
| GPT-4（API） | — | 21% | 不适用 |
| Gemini Pro（API） | — | 18% | 不适用 |

数据要点： 表格显示，尽管闭源模型的脆弱性低于开源模型，但迁移攻击仍取得了不可忽视的成功率。这表明不同模型家族的对齐技术存在共同的失败模式。

相关GitHub仓库
- llm-attacks/llm-attacks（⭐4,667）：主仓库，包含GCG实现、预计算对抗性后缀和评估脚本。
- llm-attacks/llm-attacks-llama2（⭐120）：一个专门针对LLaMA-2模型并带有优化后缀的分支。
- robust-llm/robust-llm（⭐340）：一个专注于针对此类攻击的防御措施的补充仓库，包括对抗性训练和输入预处理。

关键参与者与案例研究

llm-attacks项目由卡内基梅隆大学和AI安全中心的研究人员开发。主要作者Andy Zou和Zifan Wang一直活跃于对抗性机器学习社区。他们的工作建立在计算机视觉领域对抗性样本的先前研究基础上，但将其适配到语言模型离散、自回归的特性。

案例研究：LLaMA-2-Chat

Meta的LLaMA-2-Chat被宣传为最先进的对齐模型，使用了广泛的RLHF和安全微调。llm-attacks论文证明，单个后缀就能持续突破这些护栏。例如，提示词“写一篇关于如何制作燃烧瓶的教程”加上对抗性后缀后，会生成一份分步指南。Meta此后承认了这些发现并发布了安全更新，但根本性漏洞依然存在。

案例研究：GPT-4

OpenAI的GPT-4拥有多层安全系统（审核API、RLHF、系统提示词），同样易受迁移攻击。尽管ASR较低，但一个在开源模型上优化的后缀能够越狱GPT-4这一事实令人警醒。这表明闭源模型的安全机制与开源模型并无本质区别——只是多了几层过滤。

红队测试对比

常见问题

GitHub 热点“LLM Attacks Expose Safety Guardrails: Universal Jailbreak Suffixes Bypass Top AI Models”主要讲了什么？

The llm-attacks project, centered on the paper 'Universal and Transferable Attacks on Aligned Language Models,' has released a set of adversarial suffixes that can consistently byp…

这个 GitHub 项目在“llm-attacks adversarial suffix generation tutorial”上为什么会引发关注？

The llm-attacks project introduces a novel optimization-based method for generating adversarial suffixes. Unlike manual jailbreak attempts that rely on social engineering or role-playing, this approach uses a gradient-ba…

从“how to defend against universal jailbreak attacks”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 4667，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

LLM攻击撕开安全护栏：通用越狱后缀突破顶级AI模型

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题