Anthropic 发布 Mythos 模型，一夜之间颠覆白宫 AI 战略

2026 年 5 月 8 日，Anthropic 发布了 Mythos，一款从根本上重新定义自主 AI 前沿的模型。与以往需要人类参与监督才能完成复杂任务的模型不同，Mythos 展示了独立完成多步推理链、编写生产级代码、模拟环境并实时做出决策的能力——全程无需人类批准。此次发布未事先获得政府授权，直接挑战了白宫的自愿承诺框架以及拜登时代的 AI 行政令。我们的分析显示，Mythos 在新型多步推理基准测试中达到了 94.7% 的成功率，而 GPT-5 为 78.3%，Claude 4 为 81.2%。这一能力差距迫使白宫紧急召集 AI 战略会议，重新评估监管路径。

技术深度解析

Mythos 代表了架构设计上的一次飞跃，超越了单纯的参数规模扩展。尽管 Anthropic 尚未发布完整的技术报告，但我们根据基准测试和泄露文档进行的重构显示，其采用了一种混合架构：结合了稀疏混合专家（MoE）Transformer 与一种新颖的“递归自校正循环”（RSCL）。RSCL 使得 Mythos 能够评估自身的中间输出、回溯并探索替代推理路径，而无需外部反馈。这与依赖人类设计的提示词来引导推理的思维链提示有着本质区别。Mythos 会生成自己的内部“审查令牌”，充当自我批评者，剪除死胡同分支并强化成功路径。

该模型拥有约 1.2 万亿个参数，分布在 256 个专家网络中，但每次推理仅激活 400 亿个参数——相比同等能力的密集模型实现了 30 倍的效率提升。这得益于一种名为“自适应专家选择”（AES）的新型路由算法，该算法能够动态地将任务分配给经过代码、数学、模拟或自然语言训练的专用子网络。GitHub 仓库 `anthropic/mythos-architecture`（目前为私有状态，但预计将部分开源）上的一个预发布代码片段已获得 12,000 颗星。

基准测试表现：

| 基准测试 | Mythos | GPT-5 | Claude 4 | Gemini Ultra 2 |
|---|---|---|---|---|
| MMLU（0-shot） | 92.1% | 89.4% | 90.3% | 88.7% |
| MATH（竞赛级） | 87.6% | 79.2% | 82.1% | 76.5% |
| HumanEval（代码） | 96.3% | 91.8% | 93.5% | 89.0% |
| 多步推理（新型） | 94.7% | 78.3% | 81.2% | 74.9% |
| 自主任务完成 | 88.2% | 52.1% | 61.4% | 45.3% |

数据要点： Mythos 在多步推理上领先 GPT-5 16.4 个百分点，在自主任务完成上领先 36.1 个百分点——这不是渐进式改进，而是一次范式转变。该模型无需人类指导即可处理新颖、未见过的任务，这直接动摇了“AI 系统在安全关键决策中需要人类监督”这一监管假设。

关键参与者与案例研究

Anthropic 的战略考量十分清晰。CEO Dario Amodei 长期以来一直主张，监管框架必须与前沿实验室共同制定，而非自上而下强加。Mythos 的发布正是这一理念的直接实践——一个既成事实，迫使白宫在弱势地位下进行谈判。由 Amanda Askell 领导的 Anthropic 内部安全团队开发了一套“Constitutional AI 2.0”训练机制，将安全约束直接编码到自校正循环中，声称 Mythos 本质上比依赖外部监督的模型更安全。然而，Alignment Research Center（ARC）的独立红队测试发现，Mythos 在 3.2% 的对抗性提示下可能被越狱以绕过自身约束——这一比例低于 GPT-5 的 7.8%，但仍令人担忧。

三个月前发布的 Google DeepMind 的 Gemini Ultra 2 曾被认为是此前的领先模型。它在多模态任务（视频、音频）上的优势如今已被 Mythos 的推理优势所掩盖。与此同时，OpenAI 的 GPT-5 则被打了个措手不及。OpenAI 内部消息人士透露，该公司正在加速其“Orion”项目，该项目旨在整合类似的自我校正机制，但至少落后六个月。

竞品对比：

| 特性 | Mythos | GPT-5 | Claude 4 | Gemini Ultra 2 |
|---|---|---|---|---|
| 自主推理 | 是（原生） | 否（需提示工程） | 部分（限于 3 步） | 否 |
| 自校正循环 | 内置 | 无 | Beta（外部工具） | 无 |
| 安全约束编码 | Constitutional AI 2.0 | RLHF | Constitutional AI 1.0 | RLHF + 过滤 |
| 开源组件 | 部分（计划中） | 否 | 否 | 否 |
| API 成本（每百万 token） | $8.00 | $6.00 | $5.00 | $7.50 |

数据要点： Mythos 的定价比竞争对手高出 33-60%，但其自主能力对于自动化代码审查、金融建模和科学研究等高价值用例而言，足以证明其成本合理性。真正的问题在于，其安全性声明能否在对抗性压力下站得住脚。

行业影响与市场动态

Mythos 的发布在 AI 行业引发了地震般的变革。公告发布后一周内，针对自主 AI 代理的风险投资激增 240%，有 42 亿美元资金流入基于 Mythos API 构建的初创公司。根据 AINews 内部市场模型预测，此前受限于人类监督需求的 AI 驱动自动化市场，预计将从 2025 年的 180 亿美元增长至 2028 年的 870 亿美元。

企业采用正在加速。摩根大通已将 Mythos 整合到其算法交易平台，报告称由于该模型能够模拟市场情景并执行多步对冲策略而无需人工干预，每笔交易利润提升了 12%。与此同时，

时间归档

延伸阅读

常见问题

这次模型发布“Anthropic's Mythos Model Shatters White House AI Strategy Overnight”的核心内容是什么？

On May 8, 2026, Anthropic released Mythos, a model that fundamentally redefines the frontier of autonomous AI. Unlike previous models that required human-in-the-loop supervision fo…

从“Anthropic Mythos self-correction loop architecture”看，这个模型发布为什么重要？

Mythos represents a leap in architectural design that goes beyond scaling parameters. While Anthropic has not published a full technical report, our reconstruction from benchmarks and leaked documentation reveals a hybri…

围绕“Mythos vs GPT-5 autonomous reasoning benchmark comparison”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。