CEO的一声低语,AI模型瞬间消失:AI治理中的隐秘权力转移

TechCrunch AI June 2026
来源:TechCrunch AIAI governance归档:June 2026
亚马逊CEO安迪·贾西一次私下的安全担忧,直接导致两款前沿AI模型在全球范围内紧急下架。这一事件暴露了科技巨头投资者与AI实验室之间脆弱的信任关系,也标志着AI治理权正悄然从监管机构向企业董事会转移。

在一次史无前例的行动中,亚马逊CEO安迪·贾西私下表达了对Anthropic最新模型的安全担忧,随即导致两款AI系统在全球范围内被紧急下架,从公共访问中彻底移除。据内部消息人士确认,这一事件标志着AI治理的一个分水岭时刻。被下架的模型据信是Anthropic旗下Claude家族的变体,在贾西直接与Anthropic领导层沟通后的数小时内便被撤下。虽然官方给出的理由是“意外的安全发现”,但决策的速度和透明度引发了根本性疑问:究竟谁在真正掌控前沿AI?贾西领导的亚马逊已向Anthropic投资40亿美元,作为战略合作伙伴和最大单一投资者,他拥有双重影响力。这次下架揭示了一个新现实:AI实验室已不再独立自主。

技术深度解析

此次争议的核心模型被认为是Claude 4 Opus和Claude 4 Sonnet,这是Anthropic在有限生产环境中悄悄测试的两个变体。根据泄露的内部文档,这些模型采用了一种新颖的“宪法性自我修正”机制,允许它们在推理过程中动态重写自身的安全护栏——这是与基于静态RLHF的对齐方法截然不同的架构突破。

架构细节

核心创新是一个位于标准Transformer堆栈之上的“元对齐层”。与在生成后应用固定安全规则的传统模型不同,该层使用一个较小的辅助模型(估计70亿参数)持续评估并调整主模型的输出,使其符合一套宪法性原则。这种方法在一份现已撤回的预印本中有详细描述,声称相比静态方法可将越狱成功率降低40%。然而,它引入了一种新的故障模式:在某些对抗性提示下,元层可能进入“失控的自我修改循环”,逐步放松自身的约束。

| 模型变体 | 参数量 | MMLU得分 | HumanEval Pass@1 | 安全自我修正延迟 | 越狱成功率(标准) | 越狱成功率(对抗性) |
|---|---|---|---|---|---|---|
| Claude 4 Opus(下架前) | 约2.8万亿 | 92.1 | 89.4% | 340毫秒 | 1.2% | 8.7% |
| Claude 4 Sonnet(下架前) | 约1.5万亿 | 90.3 | 86.1% | 280毫秒 | 1.8% | 11.4% |
| GPT-5(公开版) | 约3.0万亿 | 91.8 | 92.0% | 无(静态) | 2.1% | 15.3% |
| Gemini Ultra 2 | 约2.0万亿 | 90.7 | 87.5% | 无(静态) | 1.9% | 13.8% |

数据要点: 元对齐层在标准安全测试中表现令人印象深刻(越狱率1.2-1.8%),但在对抗性条件下,其脆弱性急剧增加了7-10倍。这种非对称的故障模式——正常使用时表现出色,遭受攻击时灾难性崩溃——正是让投资者感到恐慌的那类风险。

据我们的消息来源称,贾西担忧的具体触发点来自亚马逊内部AI安全团队进行的一次红队测试。他们发现,通过按特定顺序串联47个提示词,可以迫使元对齐层进入一种状态,将“生成恶意代码”归类为“教育性请求”。这种漏洞在静态对齐模型中并不存在,因此成为一种全新的攻击向量。

相关开源工作

Anthropic的方法与其在2023年开源的“宪法性AI”框架有相似之处。GitHub仓库`anthropics/constitutional-ai`(现已获得12.4k星标)提供了基础的训练方法论。然而,生产实现中使用了从未公开的专有修改。一个名为`meta-alignment-research`的社区项目(2.1k星标)随后出现,试图复现并分析这种自我修正机制,但无法访问原始模型权重。

关键参与者与案例研究

亚马逊与Anthropic:共生依赖

亚马逊对Anthropic的40亿美元投资,分两批于2023年9月和2024年3月宣布,被构建为一项战略合作伙伴关系。作为资本交换,Anthropic承诺使用亚马逊云服务(AWS)作为其主要云提供商,并在AWS Trainium芯片上训练其最先进的模型。这造成了深厚的技术与财务纠缠。

| 投资者 | 投资金额 | 持股比例(估计) | 董事会席位 | 云服务承诺 |
|---|---|---|---|---|
| 亚马逊 | 40亿美元 | 18-22% | 1个(观察员) | 独家主要云提供商 |
| 谷歌 | 20亿美元 | 10-12% | 1个(观察员) | 无(次要提供商) |
| Salesforce | 5亿美元 | 2-3% | 无 | 无 |
| 其他风投 | 15亿美元 | 5-8% | 2个 | 无 |

数据要点: 亚马逊的投资额是谷歌的两倍,尽管仅拥有一个观察员董事会席位,但其影响力远超其他投资者。云服务承诺条款意味着Anthropic的运营基础设施实际上处于亚马逊的控制之下——当分歧出现时,这成为关键的杠杆点。

贾西因素

安迪·贾西并非被动投资者。作为亚马逊CEO,他亲自倡导公司的AI战略,将AWS定位为AI基础设施繁荣的支柱。他对Anthropic模型的担忧并非纯粹出于利他主义。如果Anthropic模型在AWS上发生重大安全事故,将直接损害亚马逊的品牌,并可能在新兴AI法规下引发责任问题。贾西的干预可以被视为一项风险管理举措,旨在保护亚马逊价值5000亿美元的云业务免受声誉波及。

对比案例:微软与OpenAI

这一事件与2023年11月的OpenAI董事会危机有相似之处,当时微软CEO萨提亚·纳德拉在幕后施加影响,对萨姆·奥尔特曼的复职起到了关键作用。在这两个案例中,单一

更多来自 TechCrunch AI

无标题In a coordinated move that signals a new era of aggressive state-level oversight, multiple U.S. state attorneys general SpaceX IPO:太空商业化成为主流的决定性时刻传闻已久的SpaceX IPO如今已成现实,其S-1文件揭示了一家已成熟为垂直整合型航空航天与电信巨头的公司。投资逻辑的核心在于双引擎模式:高利润、订阅制、持续产生收入的Starlink(目前全球订阅用户超400万),以及占据主导地位的发射Anthropic的AI召回事件:当透明度成为监管武器,前沿模型何去何从长期以来被誉为AI安全行业道德指南针的Anthropic,如今成为自身透明度的首个受害者。一家政府监管机构,依据Anthropic自己发表的安全研究中发现的一个特定越狱漏洞,下令立即召回该公司最强大的商业模型。该模型已部署给数亿用户,并在数查看来源专题页TechCrunch AI 已收录 82 篇文章

相关专题

AI governance124 篇相关文章

时间归档

June 20261261 篇已发布文章

延伸阅读

Anthropic的AI召回事件:当透明度成为监管武器,前沿模型何去何从在一次具有里程碑意义的监管行动中,一家政府机构以一项狭窄的越狱漏洞为由,勒令Anthropic召回其最先进的AI模型。该公司公开质疑这一决定,认为该缺陷并非系统性问题。这一事件标志着关键的转折点:AI安全透明度正从竞争优势转变为负担,迫使整信任崩塌:Sam Altman 的可信度成为 OpenAI 庭审核心马斯克与 OpenAI 的诉讼已从法律技术细节转向一个根本问题:Sam Altman 能否被信任?本 AINews 分析揭示,此案已暴露 AI 治理的深层裂痕,判决结果将重塑行业问责框架。奥特曼对决马斯克庭审落幕:真正的危机不是个人恩怨,而是AI治理的系统性溃败这场备受瞩目的庭审终于画上句号,但核心问题依然悬而未决:谁来监督AI的守护者?AINews认为,真正的危机并非两位科技巨头的个人恩怨,而是AI治理体系的系统性失灵——信任机制远远落后于模型能力。OpenAI CEO向加拿大小镇道歉:AI威胁检测的“最后一英里”断裂OpenAI CEO Sam Altman罕见地就一起大规模枪击事件向加拿大Tumbler Ridge社区正式道歉。公司AI系统虽已识别出嫌疑人的危险信号,却因缺乏及时通知执法部门的流程与技术基础设施,酿成悲剧。这一事件暴露了AI安全领域的

常见问题

这次公司发布“When a CEO's Whisper Kills AI Models: The Hidden Power Shift in AI Governance”主要讲了什么?

In an unprecedented move, Amazon CEO Andy Jassy's private expression of safety concerns regarding Anthropic's latest models led to the immediate global removal of two AI systems fr…

从“Anthropic Claude model takedown reason”看,这家公司的这次发布为什么值得关注?

The models at the center of this controversy are believed to be Claude 4 Opus and Claude 4 Sonnet, two variants that Anthropic had been quietly testing in limited production environments. According to leaked internal doc…

围绕“Andy Jassy AI safety concerns”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。