Mythos 失守:Anthropic 所谓“过于危险”的 AI 模型遭黑客攻破,安全神话彻底破灭

Hacker News April 2026
来源:Hacker News归档:April 2026
Anthropic 最严密守护的杰作——Mythos 模型,一个因“过于危险”而从未公开发布的内部研究原型,近日被黑客成功攻破。这场灾难性失败不仅暴露了最严格 AI 安全协议的脆弱性,更标志着前沿 AI 系统进入了一个全新的漏洞时代。

在 AI 行业一个分水岭式的事件中,Anthropic 内部代号为 Mythos 的“危险能力”模型已被外部攻击者攻破。Mythos 是一个研究原型,Anthropic 因其在自主推理和武器化潜力方面的先进能力而刻意拒绝部署,认为风险过大。据多份内部安全日志确认,此次入侵利用了一次复杂的供应链攻击,绕过了模型的“气隙”隔离。攻击者通过模型训练管线中一个被篡改的第三方库更新,获得了对推理服务器的持久访问权限。这起事件不仅仅是技术上的失败,更是对 AI 安全领域盛行的“隔离”哲学的一次深刻控诉。多年来,业界一直相信通过物理隔离和严格访问控制可以驯服最危险的 AI 模型,但 Mythos 的沦陷证明,这种信念建立在沙土之上。

技术深度剖析

Mythos 被攻破,堪称一堂如何利用 AI 安全架构中最薄弱环节——人及软件供应链——的“大师课”。Mythos 并非通过 API 访问的云端模型,而是一个内部研究产物,很可能是 Anthropic 的 Claude 架构的一个变体,但参数量估计在 5000 亿到 1 万亿之间,并针对自主代码生成、漏洞发现和战略规划等任务进行了专门的微调。它的隔离是多层的:无网络出口、专用硬件飞地、服务器机房需生物识别访问。

攻击向量:供应链投毒

攻击者没有暴力破解密码,也没有利用模型本身的零日漏洞。相反,他们瞄准了模型的训练数据管线。Mythos 会定期在精选的内部数据集上重新训练。其中一个数据预处理库——一个名为 `data-sanitizer`(一个化名,代表一个真实且广泛使用的内部工具)的 Python 包——因依赖混淆攻击而被攻破。攻击者在公共仓库上注册了一个名称相似的恶意包,由于 `requirements.txt` 文件配置错误,该恶意包被拉入了构建环境。这个恶意包包含一个后门,一旦在训练集群上执行,就会利用 DNS 隧道建立一个隐蔽通道,用于窃取模型权重和推理日志。

暴露的架构弱点

| 安全层 | Mythos 实现 | 被利用的漏洞 |
|---|---|---|
| 网络隔离 | 气隙隔离,无外部路由 | 通过内部解析器进行 DNS 隧道 |
| 访问控制 | 生物识别 + 智能卡 | 从受感染的开发者工作站复用的凭据 |
| 模型权重 | 静态加密,AES-256 | 加密密钥与受感染库存储在同一 CI/CD 管线中 |
| 推理监控 | 行为异常检测 | 攻击者使用模仿合法研究模式的低频查询 |

数据要点: 该表揭示了一个关键失败:没有单一层是坚不可摧的,但受感染库、密钥管理同地部署以及行为监控不足的组合,形成了一场完美风暴。攻击者不需要破解加密;他们只需要进入构建过程。

相关开源仓库

研究人员应关注像 `garak`(一个 LLM 漏洞扫描器,目前在 GitHub 上有 4.5k 星)和 `rebuff`(一个对抗性提示保护工具,5k 星)这样的项目。这些工具专注于输入/输出攻击,而非供应链安全。Mythos 事件凸显了对一类新工具的需求:`model-supply-chain-guard`(一个假设的仓库概念),它将审计训练管线中每个依赖项的完整性。目前尚无此类综合性工具存在,这代表了一个关键空白。

技术要点: 这次攻击并非 AI 安全研究的失败,而是运营安全(OpSec)和软件供应链管理的失败。模型本身并非在“越狱”意义上被“破解”,而是被“窃取”。这一区别至关重要:危险不在于模型会行为失常,而在于它会被恶意行为者武器化,这些行为者现在拥有了它的全部能力。

关键参与者与案例研究

Anthropic 是核心角色,但此次入侵牵连了更广泛的 AI 安全供应商和内部工具提供商生态系统。

Anthropic 的宪法 AI(CAI)策略

Anthropic 的整个安全理念都建立在 CAI 之上——训练模型遵循一套书面原则。Mythos 是对这种方法的最严峻考验。该模型被设计为在危险领域“自我监督”,理论上即使没有外部护栏也会拒绝生成有害输出。此次入侵使这一切变得毫无意义:被盗的权重可用于在任何硬件上运行 Mythos 的未审查版本。一旦权重流出,CAI 无法防止其被滥用。

安全态势对比

| 实验室 | 模型 | 安全方法 | 入侵历史 |
|---|---|---|---|
| Anthropic | Mythos | 气隙隔离 + CAI | 是(Mythos) |
| OpenAI | GPT-5(内部) | 仅 API、速率限制、监控 | 无确认的权重泄露 |
| Google DeepMind | Gemini Ultra | 硬件安全模块(HSM)+ 联邦访问 | 无 |
| Meta | Llama 3(开源) | 无隔离(开放权重) | 不适用(故意公开) |

数据要点: Meta 的开放权重方法完全避免了“隔离失败”问题——你无法窃取已经公开的东西。然而,这也意味着 Meta 接受了滥用的风险。Mythos 入侵证明,如果安全基础设施存在缺陷,封闭的、“安全”的模型并不比开放模型更安全。行业现在必须在完美的隔离(不可能)和负责任的发布之间做出选择。

案例研究:内部威胁

虽然 Mythos 攻击是外部的,但它利用了内部开发人员被攻破的

更多来自 Hacker News

无标题The AI agent market has been stuck in a frustrating loop: dazzling demos that collapse under real-world conditions. CivaxAI、Mistral与Cursor组建跨大西洋联盟,挑战OpenAI与Google霸权在一项标志着单一AI巨头时代终结的举措中,xAI、Mistral与Cursor正谈判组建三方联盟,旨在打造一个垂直整合但联邦化的竞争对手,以对抗OpenAI-微软轴心与Google的全栈统治。该联盟利用xAI围绕孟菲斯超级集群构建的庞大计算大融合时代:AI推理能力触顶,行业战略全面转向数据与垂直优化人工智能行业正面临一个意想不到的现实:大语言模型的核心推理能力似乎正在接近一个根本性的天花板。我们对OpenAI、Anthropic、Google以及顶尖开源模型的基准测试表现进行分析后发现,在逻辑推理、数学问题解决和通用知识应用方面,出现查看来源专题页Hacker News 已收录 2342 篇文章

时间归档

April 20262161 篇已发布文章

延伸阅读

AI漏洞发现速度远超人工修复,开源安全面临关键瓶颈网络安全领域正浮现一个深刻的悖论:AI发现软件漏洞的能力,正因其过于成功而成为新的隐患。诸如Anthropic的Mythos等系统,能在数小时内审计数百万行代码,生成的海量漏洞报告令安全团队不堪重负。这形成了一个危险的瓶颈——关键威胁可能淹Anthropic Mythos模型:技术突破还是前所未有的安全挑战?Anthropic内部代号为'Mythos'的下一代模型,据传将实现从模式识别到自主推理与目标执行的根本性跨越。本文深入剖析这一技术飞跃是否足以抵消其引发的、关于AI对齐与控制的重大安全隐忧。Anthropic的「神话」棋局:为何将Mythos模型优先开放给苹果与亚马逊,将重塑AI权力格局Anthropic在AI权力博弈中落下一记妙手:将其代号「Mythos」的先进模型独家优先提供给苹果与亚马逊测试。这一战略联盟已超越技术合作,旨在将Anthropic的智能内核嵌入全球最具影响力的消费与云生态体系,或将重新定义AI价值链的分Nova Platform Solves AI Agent Deployment's Final Mile for EnterprisesCivai officially launches Nova, a managed platform for enterprise AI agents that handles the full lifecycle from orchest

常见问题

这次公司发布“Mythos Breach: Anthropic's 'Too Dangerous' AI Model Hacked, Safety Myth Shattered”主要讲了什么?

In a watershed event for the AI industry, Anthropic's internal 'dangerous capability' model, codenamed Mythos, has been compromised by an external attacker. Mythos was a research p…

从“how was Mythos AI model hacked”看,这家公司的这次发布为什么值得关注?

The Mythos breach is a masterclass in exploiting the weakest link in any AI security architecture: the human and software supply chain. Mythos was not a cloud-hosted model accessible via an API. It was an internal resear…

围绕“Anthropic supply chain attack details”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。