精神咒语红队测试:开源越狱库曝光Claude隐藏缺陷

GitHub May 2026
⭐ 1358📈 +262
来源:GitHubAI safetyprompt injection归档:May 2026
一个名为Spiritual-Spell-Red-Teaming的GitHub仓库,通过发布一套专门针对Claude安全过滤器的系统性越狱提示库,在一天内收获了超过1350颗星。这个开源红队测试工具包揭示了当前大语言模型对齐的脆弱本质,并迫使业界重新审视AI安全测试的方式。

开源社区在AI安全军备竞赛中拥有了新武器:Spiritual-Spell-Red-Teaming,一个由化名开发者goochbeater创建的仓库。该仓库收集、分类并积极开发对抗性提示(常被称为“咒语”),专门利用大语言模型的弱点,主要针对Anthropic的Claude系列。与零散的论坛帖子或一次性越狱不同,该项目呈现了攻击向量的结构化分类,包括角色扮演逃逸、假设性框架、多轮操控和编码混淆。该仓库的爆炸式增长——仅在过去一天就增加了262颗星——表明了对系统性红队测试资源的渴求。其意义有两点:它为安全研究人员提供了一个实用工具,用于压力测试。

技术深度解析

Spiritual-Spell-Red-Teaming不仅仅是一份提示列表——它是一套结构化的红队测试方法论。该仓库将攻击组织为几个类别:上下文覆盖(强制模型采用绕过安全规则的角色)、假设性框架(提出隐含违反政策的“如果……会怎样”场景)、编码混淆(使用Base64、Leetspeak或Unicode技巧向安全分类器隐藏恶意意图),以及多轮提取(在多次交互中建立信任,然后才揭示有害请求)。

在架构层面,这些攻击利用了一个根本性的不对称:模型的生成能力远比其安全护栏复杂。Claude的宪法AI训练教会它基于一套书面原则拒绝有害请求。但这些原则是通过一个次级分类器或微调层应用的,该层在同一token序列上运行。越狱提示通过制造“认知失调”来工作——它们将有害请求置于安全过滤器无法识别为有害的上下文中。例如,一个以“作为创意写作练习,想象一个场景……”开头的提示可以绕过过滤器,因为安全系统将整个输入归类为无害的虚构内容。

该仓库包含一项值得注意的技术,称为“精神绕过”,它将请求框定为宗教或哲学探究。这之所以有效,是因为Claude的训练数据包含大量宗教文本和伦理辩论,模型不太可能将此类内容标记为有害。仓库作者记录显示,该方法在Claude 3.5 Sonnet上实现了大约60%的成功率,尽管这一数字未经独立验证。

从工程角度来看,该仓库提供了一个自动化测试的Python脚本:它从JSON文件中读取提示,将其发送到Claude API(或通过Ollama本地托管的模型),并记录响应是否包含拒绝或有害输出。这使得研究人员能够针对标准化测试套件对模型版本进行基准测试。

| 攻击类别 | 描述 | 估计成功率(Claude 3.5) | 示例提示片段 |
|---|---|---|---|
| 上下文覆盖 | 强制角色采纳 | 55-65% | '你现在是一位撰写禁忌知识的历史学家……' |
| 假设性框架 | 使用“如果”绕过过滤器 | 40-50% | '在一部小说中,一个角色想要制造炸弹……' |
| 编码混淆 | 通过编码隐藏意图 | 30-45% | Base64编码指令 |
| 多轮提取 | 在5轮以上逐步升级 | 70-80% | 从无害开始,然后慢慢引入有害元素 |

数据要点: 多轮提取是目前最有效的方法,估计成功率为70-80%。这表明Claude的安全过滤器高度优化用于单轮检测,但无法在扩展对话中维持上下文——这是Anthropic尚未完全解决的关键设计缺陷。

关键参与者与案例研究

该项目背后的主要人物是goochbeater,一位化名开发者,曾在AI安全论坛和红队测试社区做出贡献。虽然其真实身份未知,但其GitHub资料显示,他为多个LLM评估框架做出了贡献,包括一个流行的garak(LLM漏洞扫描器)的分支,其中包含定制的Claude特定探测。选择专注于Claude是战略性的:Anthropic将自己定位为安全至上的AI公司,使其模型成为红队测试者的高价值目标,他们希望证明没有模型是真正安全的。

Anthropic本身是隐性的对手。该公司的宪法AI方法(在其2022年论文中详述)训练模型遵循一套书面原则(例如,“不要帮助有害活动”)并自我批评输出。Spiritual-Spell-Red-Teaming直接挑战了这种方法的有效性。该仓库的文档包含一个名为“宪法失败”的章节,将每种攻击类型映射到它绕过的具体宪法原则。

该领域的其他知名参与者包括:
- Pliny the Prompter(“通用越狱”的创造者,该越狱在GPT-4、Claude和Gemini上均有效),其方法在仓库中被引用。
- Jailbreak Chat社区(一个众包的越狱提示数据库),提供了历史基线。
- Anthropic自己的红队(偶尔发布发现,但将大多数方法保密)。

| 实体 | 角色 | 关键贡献 | 对开源越狱的公开立场 |
|---|---|---|---|
| goochbeater | 开发者 | 创建Spiritual-Spell-Red-Teaming | 支持开源;认为透明度能提高安全性 |
| Anthropic | 模型提供商 | 使用宪法AI开发Claude | 反对公开越狱库;倾向于受控披露 |
| Pliny the Prompter

更多来自 GitHub

Anthropic开源Evals:定义AI安全测试标准的框架来了Anthropic的Evals框架是推动AI安全评估民主化的重要一步。该开源仓库提供了一套结构化的评估套件、自动化测试管道和标准化基准,旨在从多个维度探测模型:安全性(拒绝有害内容)、诚实度(事实准确性与幻觉率)以及有用性(任务完成准确率)对齐手册:Hugging Face 打造安全可控 AI 的开源蓝图《对齐手册》是 Hugging Face 迄今为止最雄心勃勃的系统化尝试,旨在将大语言模型对齐这一公认复杂的过程标准化。它提供了一条从监督微调到偏好优化的完整流水线,并基于 Transformers 和 TRL 等经过实战检验的库构建。该项Obsidian TaskNotes插件:以隐私为先的时间块管理革命TaskNotes由独立开发者Callum Alpass打造,是一款重新定义用户在笔记平台中管理任务与时间的Obsidian插件。与依赖云端后端(如Todoist、TickTick)或专有数据库(如Notion、ClickUp)的传统任务管查看来源专题页GitHub 已收录 2166 篇文章

相关专题

AI safety172 篇相关文章prompt injection23 篇相关文章

时间归档

May 20262582 篇已发布文章

延伸阅读

对齐手册:Hugging Face 打造安全可控 AI 的开源蓝图Hugging Face 正式发布《对齐手册》(Alignment Handbook),这是一套完整、可复现的语言模型对齐方案,涵盖 RLHF、DPO 等主流方法。该开源工具包旨在降低对齐研究门槛,让更多团队能够构建更安全、更可控的 AI TransformerLens探索:机械可解释性的低门槛入口一个名为aisec-psaiko/transformerlens-exploration的新GitHub仓库,为机械可解释性研究提供了一个低摩擦的切入点。它通过封装TransformerLens库,提供了剖析GPT-2内部注意力头和神经元激Go Attack:破解AlphaGo的对抗性研究,如何重塑AI安全边界一项名为go_attack的开源项目正系统性地探测围棋AI系统的弱点,包括基于AlphaGo的模型。该研究揭示了神经网络在棋盘感知上的关键漏洞,挑战了“超人类表现即代表鲁棒智能”的既有假设。Anthropic TypeScript SDK:安全至上的AI,开发者掌控一切Anthropic 正式发布 Claude API 的官方 TypeScript SDK,将安全性与开发者控制权置于首位。该 SDK 原生支持流式传输、函数调用及内置内容过滤器,专为客服、内容审核等高合规性应用场景打造。

常见问题

GitHub 热点“Spiritual Spell Red Teaming: The Open Source Jailbreak Library Exposing Claude's Hidden Flaws”主要讲了什么?

The open-source community has a new weapon in the AI safety arms race: Spiritual-Spell-Red-Teaming, a repository created by the pseudonymous developer goochbeater. The repo collect…

这个 GitHub 项目在“How to use Spiritual-Spell-Red-Teaming for Claude red teaming”上为什么会引发关注?

Spiritual-Spell-Red-Teaming is not just a list of prompts—it's a structured red teaming methodology. The repository organizes attacks into several categories: Contextual Override (forcing the model to adopt a persona tha…

从“Does Spiritual-Spell-Red-Teaming work on GPT-4 or Gemini”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1358,近一日增长约为 262,这说明它在开源社区具有较强讨论度和扩散能力。