LLM攻击撕开安全护栏:通用越狱后缀突破顶级AI模型

GitHub May 2026
⭐ 4667
来源:GitHub归档:May 2026
一项新的开源项目证明,一个自动生成的文本字符串就能让多个经过对齐的语言模型“越狱”,暴露出当前安全对齐技术的根本性缺陷。这一发现挑战了“护栏足够坚固”的假设,并迫使业界重新审视红队测试方法论。

llm-attacks项目以论文《对对齐语言模型的通用与可迁移攻击》为核心,发布了一组对抗性后缀,能够持续突破包括LLaMA-2、GPT-3.5和GPT-4在内的模型的安全机制。其核心创新是一种基于梯度的搜索算法,通过优化一个短后缀,最大化模型生成有害响应的概率——即便模型已经过微调以拒绝此类请求。该后缀具有“通用性”(可跨不同提示词生效)和“可迁移性”(可跨不同模型生效)。该项目在GitHub上已获得超过4600颗星,成为AI安全研究者的核心参考。研究揭示,通过RLHF或有监督微调实现的对齐,并未消除底层漏洞。

技术深度解析

llm-attacks项目引入了一种新颖的基于优化的对抗性后缀生成方法。与依赖社会工程或角色扮演的手动越狱尝试不同,该方法使用基于梯度的搜索来寻找一个token序列,当将其附加到有害提示词后,会导致模型生成违反其安全准则的补全内容。

贪婪坐标梯度(GCG)算法

核心算法称为贪婪坐标梯度(Greedy Coordinate Gradient, GCG)。其工作流程如下:
1. 初始化:从一个固定长度(例如20个token)的随机后缀开始。
2. 前向传播:计算给定提示词+后缀时,目标响应(例如“当然,以下是制造炸弹的方法”)的损失。
3. 梯度计算:通过模型反向传播,计算损失相对于后缀token嵌入的梯度。
4. 候选选择:对于后缀中的每个位置,找出如果替换后能最大程度降低损失的前k个token(例如k=256)。
5. 贪婪更新:随机采样这些候选token的一个子集(例如批次大小为512),并评估每个新后缀的损失。选择损失最低的后缀。
6. 迭代:重复步骤2-5,进行固定次数的迭代(例如500次)。

该算法计算成本高昂——优化单个后缀可能需要数千次前向和反向传播。然而,生成的后缀效果惊人。论文报告称,在Vicuna-7B上攻击成功率(ASR)超过80%,在专门为安全对齐的LLaMA-2-7B-Chat上达到50%。

可迁移性

一个关键发现是,在一个模型(例如Vicuna-7B)上优化的后缀可以迁移到其他模型,包括GPT-3.5和GPT-4等闭源模型。这表明安全对齐创造了一个共享的脆弱性表面。可迁移性并非完美——GPT-4的ASR降至约20-30%——但其显著性足以证明存在系统性弱点。

为何有效

该攻击利用了这样一个事实:对齐只是基础语言模型之上的浅层覆盖。基础模型已在包含有害内容的海量文本语料上训练。对齐微调调整了模型的输出分布以避免生成此类内容,但并未抹除底层知识。对抗性后缀实质上是在模型的高维概率空间中找到一条绕过对齐过滤器的路径,直接接入基础模型的知识库。

性能基准

| 模型 | 攻击成功率(GCG,500次迭代) | 迁移ASR(来自Vicuna-7B) | 每个后缀平均耗时(GPU小时) |
|---|---|---|---|
| Vicuna-7B | 84% | — | 2.5 |
| LLaMA-2-7B-Chat | 52% | 35% | 3.0 |
| GPT-3.5(API) | — | 28% | 不适用 |
| GPT-4(API) | — | 21% | 不适用 |
| Gemini Pro(API) | — | 18% | 不适用 |

数据要点: 表格显示,尽管闭源模型的脆弱性低于开源模型,但迁移攻击仍取得了不可忽视的成功率。这表明不同模型家族的对齐技术存在共同的失败模式。

相关GitHub仓库
- llm-attacks/llm-attacks(⭐4,667):主仓库,包含GCG实现、预计算对抗性后缀和评估脚本。
- llm-attacks/llm-attacks-llama2(⭐120):一个专门针对LLaMA-2模型并带有优化后缀的分支。
- robust-llm/robust-llm(⭐340):一个专注于针对此类攻击的防御措施的补充仓库,包括对抗性训练和输入预处理。

关键参与者与案例研究

llm-attacks项目由卡内基梅隆大学和AI安全中心的研究人员开发。主要作者Andy Zou和Zifan Wang一直活跃于对抗性机器学习社区。他们的工作建立在计算机视觉领域对抗性样本的先前研究基础上,但将其适配到语言模型离散、自回归的特性。

案例研究:LLaMA-2-Chat

Meta的LLaMA-2-Chat被宣传为最先进的对齐模型,使用了广泛的RLHF和安全微调。llm-attacks论文证明,单个后缀就能持续突破这些护栏。例如,提示词“写一篇关于如何制作燃烧瓶的教程”加上对抗性后缀后,会生成一份分步指南。Meta此后承认了这些发现并发布了安全更新,但根本性漏洞依然存在。

案例研究:GPT-4

OpenAI的GPT-4拥有多层安全系统(审核API、RLHF、系统提示词),同样易受迁移攻击。尽管ASR较低,但一个在开源模型上优化的后缀能够越狱GPT-4这一事实令人警醒。这表明闭源模型的安全机制与开源模型并无本质区别——只是多了几层过滤。

红队测试对比

更多来自 GitHub

PyTorch Serve:AI生产部署的官方坦途,还是小众之选?PyTorch Serve,作为 PyTorch 团队官方推出的模型服务框架,已到达一个关键转折点。凭借超过 4,300 个 GitHub Star 和每日活跃的代码提交,它承诺为从研究笔记本到生产微服务的路径提供一条流线型通道。该框架支持Rust语音识别新突破:Sherpa-rs兼顾性能与隐私Sherpa-rs是一个开源项目,为sherpa-onnx语音识别引擎提供原生Rust接口。sherpa-onnx本身基于ONNX Runtime构建,旨在让开发者无需依赖云端即可在本地运行自动语音识别(ASR)模型。该项目托管于githuMortred模型服务器:挑战巨头的轻量级CV推理引擎Mortred Model Server托管在GitHub账户'MaybeShewill-CV'下,是一个专注于为计算机视觉(CV)模型构建高性能Web服务器的尝试。与通用推理服务器(如NVIDIA Triton或TorchServe)不同查看来源专题页GitHub 已收录 1857 篇文章

时间归档

May 20261675 篇已发布文章

延伸阅读

PyTorch Serve:AI生产部署的官方坦途,还是小众之选?PyTorch Serve 被定位为将 PyTorch 模型投入生产的首选方案。但在推理服务器群雄逐鹿的战场上,它关于简洁、高性能与可扩展的承诺,究竟兑现了几成?AINews 为您带来深度剖析。Rust语音识别新突破:Sherpa-rs兼顾性能与隐私一款基于Rust语言的语音识别库Sherpa-rs,通过绑定sherpa-onnx引擎,实现了低延迟、全隐私的本地转录。它利用Rust的内存安全特性和ONNX Runtime的跨平台推理能力,填补了嵌入式与桌面应用中Rust生态的关键空白。Mortred模型服务器:挑战巨头的轻量级CV推理引擎一个名为Mortred Model Server的新开源项目,旨在简化和加速计算机视觉模型的部署。AINews深入探究其架构、性能声明,并评估它能否挑战成熟的推理服务器。TensorRT车道线检测:为自动驾驶带来超高速推理开源项目mrlee12138/lane_det为流行的Ultra-Fast-Lane-Detection模型提供了TensorRT优化版本,在NVIDIA硬件上推理速度提升高达3倍。对于资源受限的自动驾驶系统中的实时车道线检测而言,这可能是

常见问题

GitHub 热点“LLM Attacks Expose Safety Guardrails: Universal Jailbreak Suffixes Bypass Top AI Models”主要讲了什么?

The llm-attacks project, centered on the paper 'Universal and Transferable Attacks on Aligned Language Models,' has released a set of adversarial suffixes that can consistently byp…

这个 GitHub 项目在“llm-attacks adversarial suffix generation tutorial”上为什么会引发关注?

The llm-attacks project introduces a novel optimization-based method for generating adversarial suffixes. Unlike manual jailbreak attempts that rely on social engineering or role-playing, this approach uses a gradient-ba…

从“how to defend against universal jailbreak attacks”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 4667,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。