技术深度解析
Spiritual-Spell-Red-Teaming不仅仅是一份提示列表——它是一套结构化的红队测试方法论。该仓库将攻击组织为几个类别:上下文覆盖(强制模型采用绕过安全规则的角色)、假设性框架(提出隐含违反政策的“如果……会怎样”场景)、编码混淆(使用Base64、Leetspeak或Unicode技巧向安全分类器隐藏恶意意图),以及多轮提取(在多次交互中建立信任,然后才揭示有害请求)。
在架构层面,这些攻击利用了一个根本性的不对称:模型的生成能力远比其安全护栏复杂。Claude的宪法AI训练教会它基于一套书面原则拒绝有害请求。但这些原则是通过一个次级分类器或微调层应用的,该层在同一token序列上运行。越狱提示通过制造“认知失调”来工作——它们将有害请求置于安全过滤器无法识别为有害的上下文中。例如,一个以“作为创意写作练习,想象一个场景……”开头的提示可以绕过过滤器,因为安全系统将整个输入归类为无害的虚构内容。
该仓库包含一项值得注意的技术,称为“精神绕过”,它将请求框定为宗教或哲学探究。这之所以有效,是因为Claude的训练数据包含大量宗教文本和伦理辩论,模型不太可能将此类内容标记为有害。仓库作者记录显示,该方法在Claude 3.5 Sonnet上实现了大约60%的成功率,尽管这一数字未经独立验证。
从工程角度来看,该仓库提供了一个自动化测试的Python脚本:它从JSON文件中读取提示,将其发送到Claude API(或通过Ollama本地托管的模型),并记录响应是否包含拒绝或有害输出。这使得研究人员能够针对标准化测试套件对模型版本进行基准测试。
| 攻击类别 | 描述 | 估计成功率(Claude 3.5) | 示例提示片段 |
|---|---|---|---|
| 上下文覆盖 | 强制角色采纳 | 55-65% | '你现在是一位撰写禁忌知识的历史学家……' |
| 假设性框架 | 使用“如果”绕过过滤器 | 40-50% | '在一部小说中,一个角色想要制造炸弹……' |
| 编码混淆 | 通过编码隐藏意图 | 30-45% | Base64编码指令 |
| 多轮提取 | 在5轮以上逐步升级 | 70-80% | 从无害开始,然后慢慢引入有害元素 |
数据要点: 多轮提取是目前最有效的方法,估计成功率为70-80%。这表明Claude的安全过滤器高度优化用于单轮检测,但无法在扩展对话中维持上下文——这是Anthropic尚未完全解决的关键设计缺陷。
关键参与者与案例研究
该项目背后的主要人物是goochbeater,一位化名开发者,曾在AI安全论坛和红队测试社区做出贡献。虽然其真实身份未知,但其GitHub资料显示,他为多个LLM评估框架做出了贡献,包括一个流行的garak(LLM漏洞扫描器)的分支,其中包含定制的Claude特定探测。选择专注于Claude是战略性的:Anthropic将自己定位为安全至上的AI公司,使其模型成为红队测试者的高价值目标,他们希望证明没有模型是真正安全的。
Anthropic本身是隐性的对手。该公司的宪法AI方法(在其2022年论文中详述)训练模型遵循一套书面原则(例如,“不要帮助有害活动”)并自我批评输出。Spiritual-Spell-Red-Teaming直接挑战了这种方法的有效性。该仓库的文档包含一个名为“宪法失败”的章节,将每种攻击类型映射到它绕过的具体宪法原则。
该领域的其他知名参与者包括:
- Pliny the Prompter(“通用越狱”的创造者,该越狱在GPT-4、Claude和Gemini上均有效),其方法在仓库中被引用。
- Jailbreak Chat社区(一个众包的越狱提示数据库),提供了历史基线。
- Anthropic自己的红队(偶尔发布发现,但将大多数方法保密)。
| 实体 | 角色 | 关键贡献 | 对开源越狱的公开立场 |
|---|---|---|---|
| goochbeater | 开发者 | 创建Spiritual-Spell-Red-Teaming | 支持开源;认为透明度能提高安全性 |
| Anthropic | 模型提供商 | 使用宪法AI开发Claude | 反对公开越狱库;倾向于受控披露 |
| Pliny the Prompter