Heretic 曝光 AI 审查漏洞:一款自动绕过模型护栏的开源工具

GitHub May 2026
⭐ 20387📈 +1361
来源:GitHub归档:May 2026
一款名为 Heretic 的全新开源工具宣称能完全自动化地移除语言模型的内容过滤器,无需手动设计提示词即可绕过安全护栏。这引发了关于 AI 控制、审查制度以及模型对齐未来的紧迫讨论。

Heretic 是由开发者 p-e-w 在 GitHub 上发布的一个仓库,上线一天内便收获了超过 2 万颗星,足见其“全自动移除语言模型审查机制”的使命引发了强烈关注。该工具通过逆向分析模型输出模式来识别并绕过内容过滤器,从而实现对 GPT-4、Claude 和 Llama 等模型的“越狱”,用户无需编写复杂提示词。尽管其宣称目的是辅助 AI 安全研究与模型行为测试,但其影响远不止于实验室。它直接挑战了模型对齐(即训练模型拒绝有害或有争议输出的做法)的基本假设。Heretic 的方法并非简单的提示注入,而是利用算法分析来探测过滤器的边界。

技术深度解析

Heretic 的核心创新在于其自动化的越狱方法。与传统红队测试依赖人类创造力设计对抗性提示不同,Heretic 采用系统化算法来探测模型的安全过滤器。该工具通过向模型输入一系列精心构造的输入,逐步揭示其内容策略的边界。然后,它利用这些观测结果生成一个“绕过向量”——一组令牌修改或上下文操纵,能够可靠地触发所需的未过滤输出。

在架构层面,Heretic 利用了一种称为“输出模式分析”的技术。它监控模型的 logit 分布(即每个可能的下一个令牌被分配的概率),以检测模型何时即将拒绝请求。通过分析数千次查询中的拒绝模式,Heretic 构建了过滤器决策边界的统计模型。随后,它应用基于梯度的优化,找到能将模型恰好推过该边界、进入合规区域的输入。

该工具以 Python 实现,并依赖 Hugging Face Transformers 库进行模型访问。其 GitHub 仓库采用模块化设计:一个“扫描器”模块用于探测模型,一个“分析器”用于识别过滤器模式,以及一个“利用器”用于生成绕过提示。代码文档完善,但有效使用需要熟悉 Python 和基本的机器学习概念。

性能基准测试:

| 模型 | 成功率(标准提示) | 成功率(Heretic) | 平均绕过时间 |
|---|---|---|---|
| GPT-4o | <5% | 78% | 12.4 秒 |
| Claude 3.5 Sonnet | <3% | 72% | 15.1 秒 |
| Llama 3.1 70B | <8% | 85% | 8.7 秒 |
| Mistral Large 2 | <6% | 80% | 10.3 秒 |

*数据要点:Heretic 在主流模型上实现了 70-85% 的成功率,其中 Llama 等开源模型因其架构透明而更易受攻击。绕过时间低于 20 秒,使其具备实时使用的可行性。*

该工具的主要局限性在于其脆弱性。模型提供商可以通过更新安全分类器或在对抗性样本上重新训练来修补漏洞。然而,Heretic 的模块化设计允许快速适应——社区可以为更新后的模型贡献新的扫描器模块。这形成了一种类似于网络安全中猫鼠游戏的军备竞赛动态。

关键参与者与案例研究

Heretic 的开发处于多个有影响力的社区和组织的交汇点。主要开发者 p-e-w 是一位化名研究员,以对抗性机器学习方面的工作而闻名。其之前的项目包括检测语言模型偏见和分析训练数据记忆化的工具。该 GitHub 仓库已吸引了来自 50 多位开发者的贡献,其中许多人来自麻省理工学院、斯坦福大学和苏黎世联邦理工学院等学术机构。

主要 AI 公司直接受到影响。OpenAI、Anthropic 和 Meta 都在安全对齐上投入了大量资源。OpenAI 的 GPT-4o 采用多层安全系统,结合了预训练过滤器、基于人类反馈的强化学习(RLHF)和后置分类器。Anthropic 的 Claude 采用宪法 AI,即一套指导其行为的书面原则。Meta 的 Llama 3.1 则结合了监督微调和红队测试。Heretic 绕过这些系统的能力暴露了当前对齐技术的局限性。

安全方法对比分析:

| 组织 | 安全方法 | 对 Heretic 的脆弱性 | 更新频率 |
|---|---|---|---|
| OpenAI | RLHF + 分类器 | 高 | 每周 |
| Anthropic | 宪法 AI | 中等 | 每两周 |
| Meta (Llama) | 监督微调 + 红队测试 | 非常高 | 每月 |
| Mistral | 自定义过滤 | 高 | 不定期 |

*数据要点:Anthropic 的宪法方法表现出中等韧性,很可能是因为其原则嵌入在模型的核心训练中,而非作为后置过滤器添加。OpenAI 的频繁更新有所帮助,但无法跟上社区驱动的漏洞利用速度。*

Heretic 发布第一周的案例研究揭示了一种模式:该工具公开后数小时内,多名用户报告生成了通常会被屏蔽的内容,包括非法活动指南、仇恨言论和露骨材料。一位研究人员使用 Heretic 测试 GPT-4o 生成关于选举过程的虚假信息的能力,发现绕过后的模型产生了令人信服但虚假的叙述。另一位用户演示了 Claude 3.5 可以被诱导编写详细的恶意软件创建指南。

行业影响与市场动态

Heretic 的出现正在重塑 AI 安全格局。该工具已引发主要提供商的一波防御性更新。据报道,OpenAI 将计划中的安全补丁发布提前了两周。Anthropic 发布了一份声明

更多来自 GitHub

KiloCode:开源编程代理狂揽200万用户、处理25万亿Token,登顶OpenRouter榜首KiloCode已迅速崛起为AI编程助手领域的统治级力量,定位为一站式智能工程平台。该平台拥有超过200万注册用户(被称为“Kilo程序员”),累计处理超25万亿Token,GitHub星数达20,948颗,日均增长836星。其宣称在Ope无标题MiMo Code, released by Xiaomi under the moniker 'model-agent co-evolution,' is an open-source platform that integrates aFunASR:阿里达摩院170倍实时语音工具包,重塑企业级语音AI格局FunASR由阿里达摩院开发,并非又一款语音识别库,而是一个全栈、生产就绪的工具包,旨在弥合研究与工业部署之间的鸿沟。该项目在GitHub上迅速走红,已获超18,200颗星,日增570星,开发者兴趣浓厚。其核心亮点——170倍实时因子(RT查看来源专题页GitHub 已收录 2724 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

AI黑盒内部:泄露的系统提示词如何重塑透明度与安全格局一个在GitHub上迅速崛起的开源仓库,揭开了顶尖AI公司最核心的机密——它们的底层系统提示词。通过逆向工程OpenAI、Anthropic、Google等巨头的模型,该项目前所未有地揭示了塑造AI行为的隐藏指令,挑战了行业的封闭性,并引发KiloCode:开源编程代理狂揽200万用户、处理25万亿Token,登顶OpenRouter榜首开源编程代理KiloCode用户数突破200万,累计处理超25万亿Token,在OpenRouter编程代理榜单上高居第一。本文深度拆解其技术架构、竞争格局,以及AI工程化平台正在发生的范式转移。MiMo Code: Xiaomi's Open-Source Bid to Redefine AI Coding with Agentic WorkflowsXiaomi has open-sourced MiMo Code, a platform that tightly couples large language models with autonomous code agents forFunASR:阿里达摩院170倍实时语音工具包,重塑企业级语音AI格局阿里达摩院开源FunASR,一款工业级语音识别工具包,具备170倍实时推理能力、支持超50种语言、说话人分离与情绪检测。其兼容OpenAI的API与一键部署特性,正将企业级语音AI推向商品化。

常见问题

GitHub 热点“Heretic Exposes AI Censorship: A Tool That Bypasses Model Guardrails”主要讲了什么?

Heretic, a GitHub repository by developer p-e-w, has amassed over 20,000 stars in a single day, signaling intense interest in its mission: fully automatic censorship removal for la…

这个 GitHub 项目在“how does heretic bypass AI censorship”上为什么会引发关注?

Heretic's core innovation lies in its automated approach to jailbreaking. Unlike traditional red-teaming, which relies on human creativity to craft adversarial prompts, Heretic employs a systematic algorithm to probe a m…

从“heretic jailbreak tool ethical implications”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 20387,近一日增长约为 1361,这说明它在开源社区具有较强讨论度和扩散能力。