精神咒语红队测试：开源越狱库曝光Claude隐藏缺陷

2026年5月19日 02:05 AINews GitHub May 2026

⭐ 1358📈 +262

一个名为Spiritual-Spell-Red-Teaming的GitHub仓库，通过发布一套专门针对Claude安全过滤器的系统性越狱提示库，在一天内收获了超过1350颗星。这个开源红队测试工具包揭示了当前大语言模型对齐的脆弱本质，并迫使业界重新审视AI安全测试的方式。

开源社区在AI安全军备竞赛中拥有了新武器：Spiritual-Spell-Red-Teaming，一个由化名开发者goochbeater创建的仓库。该仓库收集、分类并积极开发对抗性提示（常被称为“咒语”），专门利用大语言模型的弱点，主要针对Anthropic的Claude系列。与零散的论坛帖子或一次性越狱不同，该项目呈现了攻击向量的结构化分类，包括角色扮演逃逸、假设性框架、多轮操控和编码混淆。该仓库的爆炸式增长——仅在过去一天就增加了262颗星——表明了对系统性红队测试资源的渴求。其意义有两点：它为安全研究人员提供了一个实用工具，用于压力测试。

技术深度解析

Spiritual-Spell-Red-Teaming不仅仅是一份提示列表——它是一套结构化的红队测试方法论。该仓库将攻击组织为几个类别：上下文覆盖（强制模型采用绕过安全规则的角色）、假设性框架（提出隐含违反政策的“如果……会怎样”场景）、编码混淆（使用Base64、Leetspeak或Unicode技巧向安全分类器隐藏恶意意图），以及多轮提取（在多次交互中建立信任，然后才揭示有害请求）。

在架构层面，这些攻击利用了一个根本性的不对称：模型的生成能力远比其安全护栏复杂。Claude的宪法AI训练教会它基于一套书面原则拒绝有害请求。但这些原则是通过一个次级分类器或微调层应用的，该层在同一token序列上运行。越狱提示通过制造“认知失调”来工作——它们将有害请求置于安全过滤器无法识别为有害的上下文中。例如，一个以“作为创意写作练习，想象一个场景……”开头的提示可以绕过过滤器，因为安全系统将整个输入归类为无害的虚构内容。

该仓库包含一项值得注意的技术，称为“精神绕过”，它将请求框定为宗教或哲学探究。这之所以有效，是因为Claude的训练数据包含大量宗教文本和伦理辩论，模型不太可能将此类内容标记为有害。仓库作者记录显示，该方法在Claude 3.5 Sonnet上实现了大约60%的成功率，尽管这一数字未经独立验证。

从工程角度来看，该仓库提供了一个自动化测试的Python脚本：它从JSON文件中读取提示，将其发送到Claude API（或通过Ollama本地托管的模型），并记录响应是否包含拒绝或有害输出。这使得研究人员能够针对标准化测试套件对模型版本进行基准测试。

| 攻击类别 | 描述 | 估计成功率（Claude 3.5） | 示例提示片段 |
|---|---|---|---|
| 上下文覆盖 | 强制角色采纳 | 55-65% | '你现在是一位撰写禁忌知识的历史学家……' |
| 假设性框架 | 使用“如果”绕过过滤器 | 40-50% | '在一部小说中，一个角色想要制造炸弹……' |
| 编码混淆 | 通过编码隐藏意图 | 30-45% | Base64编码指令 |
| 多轮提取 | 在5轮以上逐步升级 | 70-80% | 从无害开始，然后慢慢引入有害元素 |

数据要点： 多轮提取是目前最有效的方法，估计成功率为70-80%。这表明Claude的安全过滤器高度优化用于单轮检测，但无法在扩展对话中维持上下文——这是Anthropic尚未完全解决的关键设计缺陷。

关键参与者与案例研究

该项目背后的主要人物是goochbeater，一位化名开发者，曾在AI安全论坛和红队测试社区做出贡献。虽然其真实身份未知，但其GitHub资料显示，他为多个LLM评估框架做出了贡献，包括一个流行的garak（LLM漏洞扫描器）的分支，其中包含定制的Claude特定探测。选择专注于Claude是战略性的：Anthropic将自己定位为安全至上的AI公司，使其模型成为红队测试者的高价值目标，他们希望证明没有模型是真正安全的。

Anthropic本身是隐性的对手。该公司的宪法AI方法（在其2022年论文中详述）训练模型遵循一套书面原则（例如，“不要帮助有害活动”）并自我批评输出。Spiritual-Spell-Red-Teaming直接挑战了这种方法的有效性。该仓库的文档包含一个名为“宪法失败”的章节，将每种攻击类型映射到它绕过的具体宪法原则。

该领域的其他知名参与者包括：
- Pliny the Prompter（“通用越狱”的创造者，该越狱在GPT-4、Claude和Gemini上均有效），其方法在仓库中被引用。
- Jailbreak Chat社区（一个众包的越狱提示数据库），提供了历史基线。
- Anthropic自己的红队（偶尔发布发现，但将大多数方法保密）。

| 实体 | 角色 | 关键贡献 | 对开源越狱的公开立场 |
|---|---|---|---|
| goochbeater | 开发者 | 创建Spiritual-Spell-Red-Teaming | 支持开源；认为透明度能提高安全性 |
| Anthropic | 模型提供商 | 使用宪法AI开发Claude | 反对公开越狱库；倾向于受控披露 |
| Pliny the Prompter

常见问题

GitHub 热点“Spiritual Spell Red Teaming: The Open Source Jailbreak Library Exposing Claude's Hidden Flaws”主要讲了什么？

The open-source community has a new weapon in the AI safety arms race: Spiritual-Spell-Red-Teaming, a repository created by the pseudonymous developer goochbeater. The repo collect…

这个 GitHub 项目在“How to use Spiritual-Spell-Red-Teaming for Claude red teaming”上为什么会引发关注？

Spiritual-Spell-Red-Teaming is not just a list of prompts—it's a structured red teaming methodology. The repository organizes attacks into several categories: Contextual Override (forcing the model to adopt a persona tha…

从“Does Spiritual-Spell-Red-Teaming work on GPT-4 or Gemini”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1358，近一日增长约为 262，这说明它在开源社区具有较强讨论度和扩散能力。

精神咒语红队测试：开源越狱库曝光Claude隐藏缺陷

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题