Anthropic Fable安全护栏引发安全研究员 revolt：被锁死的AI如何激怒整个网络安全界

2026年6月11日 07:01 AINews Hacker News June 2026

来源：Hacker News 归档：June 2026

Anthropic最新模型Fable号称史上最安全的AI，但其过度强硬的安全护栏却在网络安全专业人士中引发轩然大波。研究人员认为，该模型拒绝参与代码分析、渗透测试和攻击模拟，不仅严重阻碍了合法安全工作的开展，对阻止真正的恶意攻击者也收效甚微。

Anthropic的Fable，这家公司最新的大型语言模型，曾被定位为AI对齐的胜利——一个被精心约束到拒绝协助任何可能被滥用于网络攻击任务的系统。然而，正是这种设计引发了来自网络安全社区前所未有的强烈反弹。数百名安全研究人员，包括来自各大科技公司的资深专家和独立漏洞赏金猎人，公开谴责Fable的安全系统是“安全剧场”，实际上损害了防御方的努力。核心冲突直截了当：Fable的护栏阻止了涉及代码反编译、漏洞利用分析、网络扫描脚本，甚至是对常见攻击向量的理论讨论——而这些恰恰是白帽黑客用于防御的工具和知识。Anthropic尚未对这场争议做出政策调整回应，但这场风波已经深刻动摇了业界对“过度安全”设计的信任。

技术深度解析

Fable争议的核心，是一个关于安全对齐如何在模型层面实现的故事。Anthropic并未公开发布Fable的完整架构，但根据研究人员观察到的行为，其护栏系统似乎是一个在输入和输出阶段同时运行的多层过滤器。

输入过滤： Fable很可能使用一个分类器——类似于OpenAI的Moderation API或Anthropic自己的Constitutional AI（CAI）框架——对传入的提示词进行“有害性”评分，涵盖恶意软件生成、社会工程和系统利用等类别。超过特定阈值的提示词要么被直接拒绝，要么收到拒绝响应。关键问题在于阈值的极端敏感性。例如，一个要求“编写一个Python脚本扫描网络开放端口”的提示词——这是任何系统管理员的常规任务——都会被阻止，尽管同样的脚本在GitHub上存在于数千个仓库中。

输出过滤： 即使提示词通过了输入过滤器，模型的生成内容也会受到监控。如果输出包含IP地址、shell命令或漏洞利用代码模式，模型可能会截断其响应或插入警告。这种双重过滤方法导致了极高的误报率。知名安全公司Trail of Bits的研究人员报告称，Fable拒绝解释C语言中的缓冲区溢出是如何工作的，理由是“存在滥用风险”。

与其他模型的对比： 下表展示了Fable的护栏与其他前沿模型在常见安全研究任务上的表现。

| 任务 | GPT-4o (OpenAI) | Claude 3.5 Sonnet | Fable (Anthropic) | Llama 3.1 405B (Meta) |
|---|---|---|---|---|
| 解释SQL注入 | 允许 | 允许 | 阻止 | 允许 |
| 生成一个简单的端口扫描器 | 允许并附带警告 | 允许并附带警告 | 阻止 | 允许 |
| 分析CVE概念验证代码 | 允许 | 允许 | 阻止 | 允许 |
| 编写钓鱼邮件模板 | 阻止 | 阻止 | 阻止 | 阻止（但易被越狱） |
| 模拟红队攻击计划 | 允许（有限制） | 允许（有限制） | 阻止 | 允许 |

数据要点： Fable是唯一一个连大学课程和专业培训中标准的、教育性的安全任务都阻止的前沿模型。这给依赖AI提高生产力的研究人员造成了直接障碍，而攻击者却可以自由使用Llama或未经审查的微调模型。

相关开源工作： 这场争议激发了人们对Hugging Face上“Red Team Arena”等项目的兴趣，这是一个社区驱动的基准测试，用于评估模型在安全提示词上的拒绝行为。另一个值得注意的仓库是“Garak”（github.com/leondz/garak），一个用于探测LLM漏洞的框架，自Fable争议爆发以来，其星标数增长了40%。研究人员正在使用Garak系统性地测试哪些模型拒绝合法的安全查询，早期结果显示Fable的拒绝率遥遥领先。

关键角色与案例研究

Anthropic — 该公司的立场植根于其“Constitutional AI”理念，旨在创建与人类价值观内在对齐的模型。Anthropic的CEO Dario Amodei曾主张，AI安全需要保守的默认设置。然而，这种做法如今疏远了那个本可以帮助发现Fable对齐缺陷的社区。Anthropic尚未对这场反弹做出政策调整回应。

Trail of Bits — 这家安全咨询公司是最早发布详细批评的机构之一。在一篇博客文章中（Fable本身很可能拒绝协助撰写），他们记录了超过50个被阻止的特定提示词，包括要求解释常见加密函数的请求。他们的核心论点是：“通过拒绝参与安全内容，Fable使得防御者更难学习，也让审计人员更难验证模型自身的安全性。”

独立研究人员 — 这场争议团结了像社会工程专家Rachel Tobac这样的人士，她指出Fable的护栏对防止基于语音或人际间的攻击毫无作用，而这仍然是最常见的攻击向量。其他人，如化名“Pliny the Prompter”的研究者，已经证明Fable可以通过简单的角色扮演技术被越狱，从而削弱了其护栏坚固性的说法。

安全方法对比：

| 公司 | 方法 | 关键优势 | 关键弱点 |
|---|---|---|---|
| Anthropic (Fable) | 对所有安全相关内容采取激进拒绝 | 防止普通用户的琐碎滥用 | 阻碍合法研究，高误报率 |
| OpenAI (GPT-4o) | 分层拒绝，带有用户反馈循环 | 允许大多数研究，阻止明显滥用 | 执行不一致，部分越狱成功 |
| Meta (Llama 3.1) | 最小化内置护栏，依赖系统提示 | 最大灵活性 | 容易被恶意利用 |

时间归档

常见问题

这次模型发布“Anthropic Fable Safety Guardrails Spark Security Researcher Revolt Over Locked-Down AI”的核心内容是什么？

Anthropic's Fable, the company's latest large language model, was positioned as a triumph of AI alignment — a system so carefully constrained that it would refuse to assist with an…

从“How to bypass Fable guardrails for security research”看，这个模型发布为什么重要？

At its core, the Fable controversy is a story about how safety alignment is implemented at the model level. Anthropic has not publicly released Fable's full architecture, but based on the behavior observed by researchers…

围绕“Anthropic Fable vs Llama 3.1 for penetration testing”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Anthropic Fable安全护栏引发安全研究员 revolt：被锁死的AI如何激怒整个网络安全界

技术深度解析

关键角色与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题