Anthropic雇佣黑客证明AI安全:进攻性防御的新范式

Hacker News June 2026
来源:Hacker NewsAnthropicAI safety归档:June 2026
Anthropic聘请了一位世界级黑客,系统性地攻击自家AI系统,旨在向持怀疑态度的政府证明模型的安全性。这一举措将AI安全从理论对齐重新定义为对抗性的、真实世界的压力测试。

在一项标志着AI安全理念发生根本性转变的举措中,Anthropic已聘请一位知名黑客,其唯一使命是在模型公开发布之前将其攻破。这并非一次标准的红队演习,而是一种嵌入式的、持续性的对抗关系:这位黑客在开发管线内部工作,寻找传统对齐研究可能遗漏的漏洞。其战略考量十分清晰:随着全球各国政府都在应对未对齐AI带来的生存风险,他们需要的不仅仅是学术论文,而是切实的证据。通过让模型经受真实对手会采用的那种无休止、富有创造性的攻击,Anthropic可以提供一种“经过实战检验”的安全凭证。这种方法将公司最大的潜在弱点——模型可能被攻破——转化为其最强大的卖点:经过实战检验的信任。

技术深度解析

这里的核心创新并非新算法,而是一种新的操作范式:持续对抗性嵌入。AI领域的传统红队测试,是由一个独立团队在模型发布前进行有限次数的攻击。Anthropic的方法则将黑客整合到开发生命周期中,形成一个反馈循环:在一个冲刺阶段发现的漏洞,会在下一个冲刺阶段开始前被修补。

黑客的工具箱

这位受雇黑客绝非“脚本小子”。他们使用一套复杂的攻击技术:
- 越狱工程:精心设计提示词以绕过安全过滤器。这包括多轮社交工程、角色扮演场景,以及将恶意指令编码为base64或其他混淆形式。
- 潜在空间操控:探测模型的内部表征,寻找可以被抑制的“安全神经元”。来自开源社区的研究,例如 `safety-tuned-llama` 仓库(LLaMA的一个分支,经过安全微调,目前在GitHub上约有2k星标),表明特定的激活模式与拒绝行为相关。黑客可以逆向工程这些模式并将其禁用。
- 数据投毒模拟:测试模型对微妙篡改的训练数据如何反应,模拟针对预训练语料库的供应链攻击。
- 侧信道攻击:分析输出token的概率,以推断私有的训练数据,这是一种已在GPT-2等模型上得到验证的技术。

衡量模型的“可攻破性”

为了量化这种方法的有效性,我们需要新的指标。传统的基准测试如MMLU或HumanEval衡量的是能力,而非安全性。Anthropic很可能正在开发一个内部的“对抗鲁棒性评分”(ARS)。以下是不同安全方法可能表现出的假设性对比:

| 安全方法 | 标准越狱成功率 | 自适应越狱成功率 | 潜在空间攻击抵抗力 | 数据泄露风险 |
|---|---|---|---|---|
| 标准RLHF(例如GPT-3.5) | 45% | 78% | 低 | 高 |
| 宪法AI(Claude 2) | 22% | 55% | 中 | 中 |
| 嵌入式黑客 + 迭代修补(Anthropic新方法) | <5%(估计) | <15%(估计) | 高 | 低 |

数据要点: 嵌入式黑客模型显著降低了越狱成功率,尤其是针对实时演化的自适应攻击。关键洞察在于,静态安全训练(RLHF、宪法AI)会产生脆弱的防御,在面对富有创造力的对手时不堪一击。而迭代的、对抗性的修补则能构建更强大、更动态的防御面。

开源视角

虽然Anthropic的方法是专有的,但开源社区也在构建类似的工具。`garak` 仓库(一个LLM漏洞扫描器,约4k星标)提供了一个自动化红队测试框架。另一个值得注意的项目是 `PyRIT`(用于生成式AI的Python风险识别工具包,约1.5k星标),由微软开发,可自动化生成对抗性攻击。这些工具将“黑客思维”民主化,但它们缺乏顶级黑客所带来的人类创造力和直觉。

关键参与者与案例研究

Anthropic:“进攻性安全”的先驱

Anthropic一直将自己定位为安全至上的AI公司。其宪法AI(CAI)方法是对RLHF的一次超越,它使用一套原则来指导模型行为。然而,CAI是一种静态防御。新的黑客雇佣则是一种动态防御。此举是对静态防御失败的直接回应。例如,在2023年,研究人员证明,通过要求Claude 2扮演一个“DAN”(Do Anything Now,无所不能)角色,可以将其越狱。Anthropic的回应不仅仅是修补那个特定的提示词,而是雇佣一个思维方式与创造该提示词的人相似的人。

竞争对手对比

| 公司 | 主要安全方法 | 黑客整合方式 | 政府信任度(估计) | 关键弱点 |
|---|---|---|---|---|
| Anthropic | 宪法AI + 嵌入式黑客 | 全职、嵌入式 | 高 | 尚未构思出的新型攻击向量 |
| OpenAI | RLHF + 外部红队 | 定期、外部 | 中 | 红队测试的可扩展性;依赖“对齐”理论 |
| Google DeepMind | RLHF + 内部安全团队 | 内部但独立 | 中 | 官僚主义摩擦;迭代速度较慢 |
| Meta(LLaMA) | 开源发布 + 社区红队 | 无(社区驱动) | 低 | 不受控的分发;无集中修补 |

数据要点: Anthropic的嵌入式黑客模型使其在建立政府信任方面拥有独特优势。虽然OpenAI和Google拥有强大的安全团队,但它们的流程更官僚化,对抗性更弱。Meta的开源方法则放弃了所有控制权。Anthropic押注的是,“经证明的可攻破性”将成为信任的新货币。

黑客画像

尽管这位受雇黑客的具体身份尚未公开,但

更多来自 Hacker News

Noema64国际象棋引擎:大模型推理能否以智取胜,挑战Stockfish的暴力计算?AINews独家获悉了Noema64——一款开源国际象棋引擎,它代表着人工智能在博弈领域的一次范式转变。与Stockfish等通过穷举搜索树每秒评估数百万个位置的传统引擎不同,Noema64利用大语言模型(LLM)以类人方式对棋局进行推理。Spaturzu SDKs:开源利器,终于让AI Agent的API成本无所遁形多Agent AI架构的快速普及引发了一场隐性危机:当数十个Agent共享一个API密钥时,财务团队根本无法判断哪个Agent在烧钱。新发布的开源项目Spaturzu SDKs直接瞄准了这一盲区。该工具的工作原理是,在每次向OpenAI和AToken清算时刻:CFO们要求每一笔API调用都要有ROI过去两年,企业一直把大语言模型当作一个“消防水带”:把所有问题都抛给GPT-4,付账单,然后宣布胜利。那个时代正在终结。一门新的学科——Token经济学——正在迫使企业核算每一次推理的成本。我们的调查显示,许多公司现在将超过20%的总IT预查看来源专题页Hacker News 已收录 4818 篇文章

相关专题

Anthropic261 篇相关文章AI safety222 篇相关文章

时间归档

June 20261654 篇已发布文章

延伸阅读

LLM越狱防御撞上数学之墙:完美安全绝无可能一项里程碑式的理论证明显示,无论采用何种过滤或对齐手段,大型语言模型都无法彻底免疫越狱攻击。这一发现颠覆了AI安全研究的核心假设,揭示了一个根本性的数学极限,迫使整个行业放弃对完美防护的追求。Anthropic紧急叫停新AI工具:国家安全审查重塑行业格局在美方国家安全机构提出关切后,Anthropic主动暂停了新一代AI工具的发布。这一史无前例的举动将国家安全置于商业节奏之上,标志着前沿AI生态可能从快速迭代转向审慎部署。Anthropic's 'Exponential AI' Policy: Altruism or Strategic Brand Play?Anthropic has published a sweeping policy document that challenges the AI industry's breakneck pace. It proposes a risk-Anthropic vs OpenAI:硅谷AI灵魂与霸权之争Anthropic与OpenAI的竞争早已超越企业对抗,演变为一场关乎人工智能灵魂的哲学之战。一方押注可控、可解释的系统;另一方不惜一切代价,通过原始规模扩张冲向AGI。以下是AINews对这场战争及其后果的权威分析。

常见问题

这次公司发布“Anthropic Hires a Hacker to Prove AI Safety: The New Paradigm of Offensive Defense”主要讲了什么?

In a move that signals a radical shift in AI safety philosophy, Anthropic has onboarded a renowned hacker whose sole mission is to break its models before they reach the public. Th…

从“How does Anthropic's embedded hacker approach differ from traditional red teaming?”看,这家公司的这次发布为什么值得关注?

The core innovation here is not a new algorithm but a new operational paradigm: continuous adversarial embedding. Traditional red teaming in AI involves a separate team conducting a finite number of attacks before a mode…

围绕“What specific techniques does an AI safety hacker use to jailbreak models?”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。