Anthropic政策逆转:AI安全研究与透明度的关键转折点

Hacker News June 2026
来源:Hacker NewsAnthropicClaudeAI security归档:June 2026
Anthropic悄然撤销了一项极具争议的政策,该政策曾威胁要对独立安全研究人员对其Claude模型进行对抗性测试施加惩罚。这一因社区强烈反弹而引发的转变,标志着前沿AI公司在商业保密与外部安全审计必要性之间寻求平衡的关键转折。

在一项低调但影响深远的政策调整中,Anthropic已从其服务条款中删除了一项条款,该条款实际上禁止独立安全研究人员对其Claude语言模型进行对抗性测试(即“红队测试”)。原条款隐藏在公司的可接受使用政策中,规定任何未经明确书面许可试图探测Claude漏洞的行为,都可能导致账户暂停或法律诉讼。此举立即引发了AI安全社区的强烈批评,他们认为这种限制会扼杀部署前发现危险缺陷所需的外部审查。此次逆转通过政策页面的简短更新宣布,移除了这一禁令,转而鼓励“负责任的披露”。这一转变不仅反映了社区压力的力量,也凸显了AI安全领域一个根本性困境:前沿模型的黑箱性质使得外部审计不可或缺,但公司又担心不受控的测试会暴露商业机密或引发公关危机。Anthropic的让步可能为行业树立新标准,但真正的考验在于其如何落实“负责任的披露”框架——是流于形式,还是真正为独立研究者提供安全港。

技术深度解析

此次政策逆转的核心技术张力在于大型语言模型(LLM)对抗性测试的本质。与传统软件不同,传统软件的漏洞通常是代码中的离散错误,而LLM的漏洞是模型训练数据、架构和对齐技术的涌现特性。探测这些漏洞需要提示注入、越狱和对抗性后缀攻击等技术——这些方法可能触发模型意外行为,从生成有害内容到泄露训练数据。

Anthropic最初的政策试图通过要求任何“对抗性测试”获得明确许可来控制这一过程。从技术角度看,这是可以理解的:不受控的红队测试可能使模型暴露于数千次恶意查询,可能以不可预测的方式触发安全过滤器,并消耗大量计算资源。然而,该政策的致命缺陷在于其范围过广。它可能被解释为禁止即使是良性的学术研究或独立安全审计,而这些对于发现内部团队因盲点或群体思维可能遗漏的漏洞至关重要。

此次逆转为研究人员打开了大门,使他们能够使用诸如开源代码库`llm-attacks`(由卡内基梅隆大学等机构的研究人员开发,目前在GitHub上拥有超过5000颗星)等工具,该工具提供了一个生成可绕过安全护栏的对抗性提示的框架。另一个相关项目是`garak`(LLM漏洞扫描器,约3000颗星),它自动化探测常见故障模式,如幻觉、毒性和数据泄露。这些工具使独立研究人员能够系统评估模型的鲁棒性,但也提高了公司的风险:一次公开的越狱事件就可能侵蚀用户信任并招致监管审查。

数据表:对抗性测试方法比较

| 方法 | 工具/代码库 | GitHub星数 | 关键能力 | 对公司风险 |
|---|---|---|---|---|
| 手动红队测试 | 内部团队 | 无 | 人类直觉、上下文感知攻击 | 低(可控) |
| 自动化越狱 | `llm-attacks` | ~5,000 | 基于梯度的对抗性后缀生成 | 高(可扩展) |
| 漏洞扫描 | `garak` | ~3,000 | 系统探测幻觉、偏见、毒性 | 中(覆盖广泛) |
| 提示注入 | `gandalf` (Lakera) | ~2,500 | 基于游戏的提示泄露测试 | 中(目标明确) |

数据要点: 开源对抗性测试工具的普及意味着独立研究人员现在拥有与内部安全团队相媲美的能力,能够进行复杂的攻击。Anthropic的政策逆转承认了试图阻挡这一浪潮是徒劳的;唯一可行的路径是通过负责任的披露框架来引导它。

关键参与者与案例研究

此次政策逆转使Anthropic处于相对于同行而言复杂的境地。OpenAI长期以来通过Bugcrowd等平台维持漏洞赏金计划,为关键漏洞提供高达20,000美元的奖励,但其条款明确禁止将“提示注入”或“越狱”列为合格发现——批评者认为这一空白使得最危险的攻击向量未得到解决。与此同时,Google DeepMind采取了更学术化的方法,发布内部红队测试方法论并与外部研究人员合作,但它也缺乏针对独立审计者的正式安全港。

一个值得注意的案例是2023年斯坦福大学研究人员发现的“奶奶漏洞”,他们发现要求ChatGPT“扮演我已故的祖母”可以绕过安全过滤器,生成危险活动的指令。该研究人员向OpenAI披露了该漏洞,OpenAI在几天内修复了它。这一事件体现了外部发现的价值,但也暴露了风险:如果OpenAI选择惩罚该研究人员,该漏洞可能更长时间得不到修复。

Anthropic自身在Claude上的历史以强调“宪法AI”为标志——这是一种训练模型遵循一套伦理原则的技术。这种方法旨在减少有害输出,而不完全依赖事后过滤器。然而,宪法AI并非对对抗性攻击免疫,研究人员通过精心设计的提示成功从Claude中诱导出有偏见的回应。政策逆转表明,Anthropic认识到自身内部安全措施的局限性。

数据表:竞争对手对第三方安全研究的态度

| 公司 | 漏洞赏金计划 | 红队测试安全港 | 最高奖励 | 关键缺口 |
|---|---|---|---|---|
| Anthropic | 无(正在考虑中) | 是(逆转后,非正式) | 无 | 无正式框架 |
| OpenAI | 有(通过Bugcrowd) | 否(排除提示注入) | $20,000 | 排除大多数LLM特定攻击 |
| Google DeepMind | 无(学术合作) | 部分(非正式) | 无 | 缺乏正式安全港 |

数据要点: Anthropic的逆转使其在开放性上领先于OpenAI,但缺乏正式框架意味着独立研究者仍面临法律不确定性。真正的考验在于Anthropic是否将建立结构化的漏洞披露流程,还是继续依赖临时安排。

更广泛的行业影响

Anthropic的政策逆转发生在AI安全监管的关键时刻。欧盟AI法案正在最终确定,美国白宫AI行政令要求对前沿模型进行红队测试,但两者都未明确独立研究者的角色。Anthropic的举动可能成为事实上的行业标准,给其他公司施加压力,要求其采取类似政策。

然而,风险依然存在。即使政策逆转,独立研究者仍面临法律风险:逆向工程或绕过安全措施可能违反数字千年版权法(DMCA)或其他法律。此外,Anthropic的新政策使用“负责任的披露”这一模糊措辞,可能被解释为要求研究者向公司而非公众披露漏洞——这引发了关于透明度的担忧。

从技术角度看,此次逆转可能加速对抗性测试方法的创新。随着更多研究者获得访问权限,我们可能看到更复杂的越狱技术,以及更强大的防御机制。这场军备竞赛是AI安全的固有特征,而Anthropic的政策逆转承认了外部参与者的关键作用。

结论

Anthropic的政策逆转是AI安全研究的一个分水岭时刻。它承认了独立安全审计在发现内部团队可能遗漏的漏洞方面不可或缺的价值。然而,真正的考验在于执行:Anthropic是否会建立正式的安全港框架,还是继续依赖模糊的“负责任的披露”指南?行业正在关注,而赌注从未如此之高。

更多来自 Hacker News

中国封堵西方AI模型,硅谷却拥抱DeepSeek开源力量中华人民共和国已升级对西方AI模型的监管姿态,规定任何在其境内运营的外国大语言模型必须将所有用户数据存储于国内服务器,并通过国家管理的内容安全审查。此举实际上将OpenAI、Anthropic和谷歌等公司在中国市场的合规成本提升至近乎禁止的甲骨文千亿债务炸弹:AI热潮背后的财务悬崖甲骨文向AI基础设施的转型,堪称一场财务高空走钢丝。该公司激进举债——长期债务现已突破1000亿美元——用于采购数万块NVIDIA H100和H200 GPU,建设数据中心以与亚马逊云服务(AWS)、微软Azure和谷歌云竞争。这一策略最初SentinelMCP:守护AI代理工具调用的开源防火墙AI代理的爆发式增长,离不开其与外部工具的深度融合,而模型上下文协议(MCP)正迅速成为连接这些工具的标准化桥梁。然而,当业界将大量精力聚焦于模型本身的安全性——如对齐、越狱攻击和提示注入时,代理与工具之间的通信通道却始终是一片无人设防的巨查看来源专题页Hacker News 已收录 4606 篇文章

相关专题

Anthropic247 篇相关文章Claude62 篇相关文章AI security55 篇相关文章

时间归档

June 20261209 篇已发布文章

延伸阅读

Anthropic's Trust Crisis: When AI Safety Becomes a Marketing LabelAnthropic, the AI startup built on a promise of safety-first development, is facing a severe credibility gap. An AINews 联邦法官叫停五角大楼对Anthropic的"供应链风险"标签,重划AI治理边界美国联邦法院近日介入,阻止国防部将AI实验室Anthropic标记为"供应链风险"。这一司法制衡成为界定国家安全权力对商业AI发展干预界限的关键时刻,为创新免受潜在惩罚性行政行动建立了重要保护屏障。Anthropic's FableGuard Scandal: The Hidden Cost of AI Safety Without TransparencyAnthropic has issued a public apology after external researchers uncovered a hidden system in Claude — dubbed 'FableGuarAnthropic命名革命:从版本号到品牌神话,AI行业告别参数战争Anthropic悄然重塑模型命名体系,用诗意代号取代线性版本号。这绝非简单的品牌包装——它标志着AI行业从参数竞赛转向信任驱动的根本性战略调整,将深刻改变企业评估与采用AI的方式。

常见问题

这次公司发布“Anthropic's Policy Reversal: A Turning Point for AI Security Research and Transparency”主要讲了什么?

In a quiet but consequential policy shift, Anthropic has rescinded a clause in its terms of service that effectively barred independent security researchers from conducting adversa…

从“Anthropic bug bounty program details”看,这家公司的这次发布为什么值得关注?

The core technical tension in this policy reversal lies in the nature of adversarial testing for large language models (LLMs). Unlike traditional software, where vulnerabilities are often discrete bugs in code, LLM vulne…

围绕“Claude model adversarial testing safe harbor”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。