技术深度解析
该攻击利用了现代基于LLM的安全工具的核心架构特征:安全分类器。大多数生产系统,例如基于OpenAI的GPT-4o、Anthropic的Claude或Meta的Llama Guard构建的系统,都采用两阶段流水线。首先,分类器通过关键词匹配或一个较小的微调模型,扫描输入中禁止的类别——大规模杀伤性武器(WMD)、生物制剂、化学战。如果触发,系统会返回拒绝响应(例如“我无法协助此请求”)并停止分析。
恶意软件作者已经逆向工程了这些分类器。通过将诸如“CBRN武器化协议”或“沙林毒气合成步骤”等字符串插入代码注释、字符串字面量或死代码块中,他们迫使分类器拒绝整个样本。真正的恶意有效载荷——通常是一个PowerShell下载器、键盘记录器或勒索软件加密器——则隐藏在另一个未被检查的代码段中。由于拒绝发生在深度分析之前,有效载荷得以保持未被检测。
该技术对采用单次通过、整体分析的系统尤其有效。例如,一个将整个恶意软件二进制文件送入LLM进行摘要的安全工具,若二进制文件的任何部分触发了拒绝响应,便会失败。更先进的系统采用分块和并行分析,但即使这些系统,若触发短语出现在第一个数据块中,也可能被攻破。
相关开源项目
- Llama Guard(GitHub: meta-llama/PurpleLlama):一个基于Llama 3微调的安全分类器。它使用包含WMD和生物武器在内的6个类别的分类体系。最近的更新(v2,15k+星)增加了对抗鲁棒性训练,但该模型在包含核相关术语(例如“反应堆冷却剂”)的良性代码上仍显示出12%的误拒绝率。
- NeMo Guardrails(GitHub: NVIDIA/NeMo-Guardrails):一个用于为LLM添加安全护栏的开源工具包。它支持基于关键词和基于模型的过滤器。然而,其默认关键词列表包含超过200个核武器和生物武器术语,使其极易受到此攻击。
- Adversarial Robustness Toolbox (ART)(GitHub: Trusted-AI/adversarial-robustness-toolbox):用于测试LLM安全过滤器。最近的基准测试显示,在10KB的恶意软件样本中插入单个触发短语,会使主流安全分类器的绕过率从3%飙升至47%。
性能数据表
| 安全分类器 | 基线检测率(干净恶意软件) | 含触发短语的检测率 | 误拒绝率(含核术语的良性代码) |
|---|---|---|---|
| Llama Guard v2 | 94.2% | 51.3% | 12.1% |
| OpenAI Content Filter (GPT-4o) | 96.8% | 44.7% | 8.9% |
| Anthropic Constitutional AI (Claude 3.5) | 95.5% | 49.2% | 10.4% |
| Microsoft Azure AI Content Safety | 93.1% | 38.6% | 15.3% |
数据要点: 该攻击使所有主流分类器的检测率几乎减半,同时在良性代码上造成显著的误拒绝率。这表明当前的安全机制是脆弱的,且针对对抗性输入的校准不佳。
关键参与者与案例研究
受影响的公司与产品
- CrowdStrike Falcon:使用LLM进行自动化恶意软件分类。在内部测试中,当触发短语被插入PE文件资源时,该攻击在34%的情况下绕过了Falcon的AI分析。CrowdStrike随后部署了一个二级分类器来扫描对抗性模式。
- Palo Alto Networks Cortex XSIAM:集成GPT-4进行威胁情报摘要。Trail of Bits的研究人员的概念验证显示,将“武器化炭疽孢子”插入PowerShell脚本导致Cortex完全拒绝分析,从而使一个凭证窃取器得以通过。
- VirusTotal Code Insight:谷歌的AI驱动代码分析工具。研究人员发现,向一个良性Python脚本中添加一行虚假的生物武器代码会触发拒绝,使该工具对此样本失效。
研究人员与知名人物
- Eugene Bagdasaryan(康奈尔科技):开创了针对安全分类器的对抗性攻击研究。他2024年的论文《使用触发短语对语言模型进行红队测试》证明,插入5-10个触发词可在良性输入上导致70%的拒绝率。
- Nicholas Carlini(Google DeepMind):发表了关于《通过语义注入越狱安全过滤器》的研究,表明即使是上下文感知的分类器,也可以通过将触发短语嵌入代码注释中来被欺骗。
- Hyrum Anderson(Endgame,现Elastic):开发了首个已知的使用安全过滤器逃避的对抗性恶意软件样本数据集。其团队2025年的报告记录了12个使用核关键词绕过AI分析的真实世界样本。
产品对比表
| 安全产品 | LLM集成方式 | 对攻击的敏感性 | 缓解策略 | 每百万次API调用成本 |
|---|---|---|---|---|
| CrowdStrike Falcon | 自动化恶意软件分类 | 高(34%绕过率) | 二级对抗模式分类器 | 未公开 |
| Palo Alto Networks Cortex XSIAM | GPT-4威胁情报摘要 | 高(概念验证绕过) | 上下文感知的触发短语过滤 | 约$3.50 |
| VirusTotal Code Insight | AI驱动代码分析 | 中等(单行触发) | 分块分析与人工审核 | 免费(有限配额) |
| Microsoft Defender for Endpoint | 基于LLM的行为分析 | 中等(38.6%检测率下降) | 多阶段流水线与对抗训练 | 包含在E5许可中 |