Mythos 失守：Anthropic 所谓“过于危险”的 AI 模型遭黑客攻破，安全神话彻底破灭

Anthropic 最严密守护的杰作——Mythos 模型，一个因“过于危险”而从未公开发布的内部研究原型，近日被黑客成功攻破。这场灾难性失败不仅暴露了最严格 AI 安全协议的脆弱性，更标志着前沿 AI 系统进入了一个全新的漏洞时代。

在 AI 行业一个分水岭式的事件中，Anthropic 内部代号为 Mythos 的“危险能力”模型已被外部攻击者攻破。Mythos 是一个研究原型，Anthropic 因其在自主推理和武器化潜力方面的先进能力而刻意拒绝部署，认为风险过大。据多份内部安全日志确认，此次入侵利用了一次复杂的供应链攻击，绕过了模型的“气隙”隔离。攻击者通过模型训练管线中一个被篡改的第三方库更新，获得了对推理服务器的持久访问权限。这起事件不仅仅是技术上的失败，更是对 AI 安全领域盛行的“隔离”哲学的一次深刻控诉。多年来，业界一直相信通过物理隔离和严格访问控制可以驯服最危险的 AI 模型，但 Mythos 的沦陷证明，这种信念建立在沙土之上。

技术深度剖析

Mythos 被攻破，堪称一堂如何利用 AI 安全架构中最薄弱环节——人及软件供应链——的“大师课”。Mythos 并非通过 API 访问的云端模型，而是一个内部研究产物，很可能是 Anthropic 的 Claude 架构的一个变体，但参数量估计在 5000 亿到 1 万亿之间，并针对自主代码生成、漏洞发现和战略规划等任务进行了专门的微调。它的隔离是多层的：无网络出口、专用硬件飞地、服务器机房需生物识别访问。

攻击向量：供应链投毒

攻击者没有暴力破解密码，也没有利用模型本身的零日漏洞。相反，他们瞄准了模型的训练数据管线。Mythos 会定期在精选的内部数据集上重新训练。其中一个数据预处理库——一个名为 `data-sanitizer`（一个化名，代表一个真实且广泛使用的内部工具）的 Python 包——因依赖混淆攻击而被攻破。攻击者在公共仓库上注册了一个名称相似的恶意包，由于 `requirements.txt` 文件配置错误，该恶意包被拉入了构建环境。这个恶意包包含一个后门，一旦在训练集群上执行，就会利用 DNS 隧道建立一个隐蔽通道，用于窃取模型权重和推理日志。

暴露的架构弱点

| 安全层 | Mythos 实现 | 被利用的漏洞 |
|---|---|---|
| 网络隔离 | 气隙隔离，无外部路由 | 通过内部解析器进行 DNS 隧道 |
| 访问控制 | 生物识别 + 智能卡 | 从受感染的开发者工作站复用的凭据 |
| 模型权重 | 静态加密，AES-256 | 加密密钥与受感染库存储在同一 CI/CD 管线中 |
| 推理监控 | 行为异常检测 | 攻击者使用模仿合法研究模式的低频查询 |

数据要点： 该表揭示了一个关键失败：没有单一层是坚不可摧的，但受感染库、密钥管理同地部署以及行为监控不足的组合，形成了一场完美风暴。攻击者不需要破解加密；他们只需要进入构建过程。

相关开源仓库

研究人员应关注像 `garak`（一个 LLM 漏洞扫描器，目前在 GitHub 上有 4.5k 星）和 `rebuff`（一个对抗性提示保护工具，5k 星）这样的项目。这些工具专注于输入/输出攻击，而非供应链安全。Mythos 事件凸显了对一类新工具的需求：`model-supply-chain-guard`（一个假设的仓库概念），它将审计训练管线中每个依赖项的完整性。目前尚无此类综合性工具存在，这代表了一个关键空白。

技术要点： 这次攻击并非 AI 安全研究的失败，而是运营安全（OpSec）和软件供应链管理的失败。模型本身并非在“越狱”意义上被“破解”，而是被“窃取”。这一区别至关重要：危险不在于模型会行为失常，而在于它会被恶意行为者武器化，这些行为者现在拥有了它的全部能力。

关键参与者与案例研究

Anthropic 是核心角色，但此次入侵牵连了更广泛的 AI 安全供应商和内部工具提供商生态系统。

Anthropic 的宪法 AI（CAI）策略

Anthropic 的整个安全理念都建立在 CAI 之上——训练模型遵循一套书面原则。Mythos 是对这种方法的最严峻考验。该模型被设计为在危险领域“自我监督”，理论上即使没有外部护栏也会拒绝生成有害输出。此次入侵使这一切变得毫无意义：被盗的权重可用于在任何硬件上运行 Mythos 的未审查版本。一旦权重流出，CAI 无法防止其被滥用。

安全态势对比

| 实验室 | 模型 | 安全方法 | 入侵历史 |
|---|---|---|---|
| Anthropic | Mythos | 气隙隔离 + CAI | 是（Mythos） |
| OpenAI | GPT-5（内部） | 仅 API、速率限制、监控 | 无确认的权重泄露 |
| Google DeepMind | Gemini Ultra | 硬件安全模块（HSM）+ 联邦访问 | 无 |
| Meta | Llama 3（开源） | 无隔离（开放权重） | 不适用（故意公开） |

数据要点： Meta 的开放权重方法完全避免了“隔离失败”问题——你无法窃取已经公开的东西。然而，这也意味着 Meta 接受了滥用的风险。Mythos 入侵证明，如果安全基础设施存在缺陷，封闭的、“安全”的模型并不比开放模型更安全。行业现在必须在完美的隔离（不可能）和负责任的发布之间做出选择。

案例研究：内部威胁

虽然 Mythos 攻击是外部的，但它利用了内部开发人员被攻破的

常见问题

这次公司发布“Mythos Breach: Anthropic's 'Too Dangerous' AI Model Hacked, Safety Myth Shattered”主要讲了什么？

In a watershed event for the AI industry, Anthropic's internal 'dangerous capability' model, codenamed Mythos, has been compromised by an external attacker. Mythos was a research p…

从“how was Mythos AI model hacked”看，这家公司的这次发布为什么值得关注？

The Mythos breach is a masterclass in exploiting the weakest link in any AI security architecture: the human and software supply chain. Mythos was not a cloud-hosted model accessible via an API. It was an internal resear…

围绕“Anthropic supply chain attack details”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Mythos 失守：Anthropic 所谓“过于危险”的 AI 模型遭黑客攻破，安全神话彻底破灭

技术深度剖析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题