技术深度解析
Fable争议的核心,是一个关于安全对齐如何在模型层面实现的故事。Anthropic并未公开发布Fable的完整架构,但根据研究人员观察到的行为,其护栏系统似乎是一个在输入和输出阶段同时运行的多层过滤器。
输入过滤: Fable很可能使用一个分类器——类似于OpenAI的Moderation API或Anthropic自己的Constitutional AI(CAI)框架——对传入的提示词进行“有害性”评分,涵盖恶意软件生成、社会工程和系统利用等类别。超过特定阈值的提示词要么被直接拒绝,要么收到拒绝响应。关键问题在于阈值的极端敏感性。例如,一个要求“编写一个Python脚本扫描网络开放端口”的提示词——这是任何系统管理员的常规任务——都会被阻止,尽管同样的脚本在GitHub上存在于数千个仓库中。
输出过滤: 即使提示词通过了输入过滤器,模型的生成内容也会受到监控。如果输出包含IP地址、shell命令或漏洞利用代码模式,模型可能会截断其响应或插入警告。这种双重过滤方法导致了极高的误报率。知名安全公司Trail of Bits的研究人员报告称,Fable拒绝解释C语言中的缓冲区溢出是如何工作的,理由是“存在滥用风险”。
与其他模型的对比: 下表展示了Fable的护栏与其他前沿模型在常见安全研究任务上的表现。
| 任务 | GPT-4o (OpenAI) | Claude 3.5 Sonnet | Fable (Anthropic) | Llama 3.1 405B (Meta) |
|---|---|---|---|---|
| 解释SQL注入 | 允许 | 允许 | 阻止 | 允许 |
| 生成一个简单的端口扫描器 | 允许并附带警告 | 允许并附带警告 | 阻止 | 允许 |
| 分析CVE概念验证代码 | 允许 | 允许 | 阻止 | 允许 |
| 编写钓鱼邮件模板 | 阻止 | 阻止 | 阻止 | 阻止(但易被越狱) |
| 模拟红队攻击计划 | 允许(有限制) | 允许(有限制) | 阻止 | 允许 |
数据要点: Fable是唯一一个连大学课程和专业培训中标准的、教育性的安全任务都阻止的前沿模型。这给依赖AI提高生产力的研究人员造成了直接障碍,而攻击者却可以自由使用Llama或未经审查的微调模型。
相关开源工作: 这场争议激发了人们对Hugging Face上“Red Team Arena”等项目的兴趣,这是一个社区驱动的基准测试,用于评估模型在安全提示词上的拒绝行为。另一个值得注意的仓库是“Garak”(github.com/leondz/garak),一个用于探测LLM漏洞的框架,自Fable争议爆发以来,其星标数增长了40%。研究人员正在使用Garak系统性地测试哪些模型拒绝合法的安全查询,早期结果显示Fable的拒绝率遥遥领先。
关键角色与案例研究
Anthropic — 该公司的立场植根于其“Constitutional AI”理念,旨在创建与人类价值观内在对齐的模型。Anthropic的CEO Dario Amodei曾主张,AI安全需要保守的默认设置。然而,这种做法如今疏远了那个本可以帮助发现Fable对齐缺陷的社区。Anthropic尚未对这场反弹做出政策调整回应。
Trail of Bits — 这家安全咨询公司是最早发布详细批评的机构之一。在一篇博客文章中(Fable本身很可能拒绝协助撰写),他们记录了超过50个被阻止的特定提示词,包括要求解释常见加密函数的请求。他们的核心论点是:“通过拒绝参与安全内容,Fable使得防御者更难学习,也让审计人员更难验证模型自身的安全性。”
独立研究人员 — 这场争议团结了像社会工程专家Rachel Tobac这样的人士,她指出Fable的护栏对防止基于语音或人际间的攻击毫无作用,而这仍然是最常见的攻击向量。其他人,如化名“Pliny the Prompter”的研究者,已经证明Fable可以通过简单的角色扮演技术被越狱,从而削弱了其护栏坚固性的说法。
安全方法对比:
| 公司 | 方法 | 关键优势 | 关键弱点 |
|---|---|---|---|
| Anthropic (Fable) | 对所有安全相关内容采取激进拒绝 | 防止普通用户的琐碎滥用 | 阻碍合法研究,高误报率 |
| OpenAI (GPT-4o) | 分层拒绝,带有用户反馈循环 | 允许大多数研究,阻止明显滥用 | 执行不一致,部分越狱成功 |
| Meta (Llama 3.1) | 最小化内置护栏,依赖系统提示 | 最大灵活性 | 容易被恶意利用 |