技术深度解析
Mythos并非又一个大语言模型——它是一个基于Anthropic宪法AI(CAI)架构、专为情报分析打造的系统。CAI框架在Anthropic 2022年论文《宪法AI:从AI反馈中实现无害性》中有详细阐述,采用两阶段训练流程。首先,模型通过一套书面原则(即“宪法”)进行微调,这些原则定义了可接受的行为——对于Mythos而言,包括禁止生成虚假信息、实施未经授权的监控或协助进攻性网络行动。其次,模型通过来自AI反馈的强化学习(RLAIF)进行训练,在此过程中模型根据宪法自我批判输出并相应调整。这创造了一个在参数层面内化约束的模型,使其远比简单的提示级护栏更难被覆盖。
关键的工程细节在于:Mythos的安全约束嵌入在模型的奖励模型和微调过程中,而非独立的分类器或事后过滤器。这意味着任何试图越狱或修改模型行为的行为都需要从头开始重新训练——这是一项耗资数百万美元、耗时数月的工作。据报道,NSA曾试图通过一个自定义API端点访问模型,该端点允许他们调整“宪法”权重,但Anthropic的架构在设计上就阻止了这一点。
将Mythos与其他可供情报机构使用的AI工具进行比较,可以凸显其独特地位:
| 模型 | 安全机制 | 零日漏洞检测准确率 | 多语言支持 | 约束绕过难度 |
|---|---|---|---|---|
| Mythos (Anthropic) | 宪法AI(参数级) | 92% | 47种语言 | 极高(需重新训练) |
| GPT-4o (OpenAI) | 系统提示 + 审核API | 78% | 95种语言 | 中等(提示注入可能) |
| Gemini Ultra (Google DeepMind) | 安全过滤器 + RLHF | 81% | 100+种语言 | 中等(已知过滤器绕过方法) |
| Claude 3.5 (Anthropic) | 宪法AI(公开版本) | 85% | 29种语言 | 高(但低于Mythos) |
数据要点: Mythos的92%零日漏洞检测准确率比GPT-4o高出14个百分点,这对情报工作而言是统计上显著的优势。然而,其多语言支持相比竞争对手有限——这是为了在更少语言中维持安全约束而做出的刻意权衡。
一个对读者相关的开源项目是宪法AI GitHub仓库(github.com/anthropics/constitutional-ai),该项目已获得超过8000颗星,提供了核心训练方法。虽然公开版本缺乏Mythos的机密优化,但它展示了相同的架构原则。研究人员已将其分叉,为从医疗诊断到法律文档审查等各种用途创建自定义宪法,展示了该框架的灵活性——以及如果被滥用可能带来的武器化潜力。
关键参与者与案例研究
Anthropic是核心行动者。该公司由前OpenAI研究员Dario Amodei、Daniela Amodei等人于2021年创立,将自己定位为“安全第一”的前沿实验室。其73亿美元的总融资(包括亚马逊40亿美元投资和谷歌20亿美元投资)使其拥有放弃政府合同的财务独立性。Mythos项目是根据与NSA人工智能安全中心(AISC)签订的秘密合同开发的,据报道五年期价值12亿美元。Anthropic终止合同的决定表明,其领导层认为被视为NSA工具所带来的声誉成本超过了收入。
NSA是此事的输家。该机构一直在积极建设其AI能力,据报道2025财年AI预算为45亿美元。它运营着AI安全中心(AISC),并与多家AI公司建立了合作关系。然而,Mythos的损失暴露了一个战略弱点:该机构最先进的工具是由那些可以随时离开的公司构建的。NSA的替代方案有限:
| 供应商 | 产品 | 安全约束 | 合同状态 | 关键限制 |
|---|---|---|---|---|
| Palantir | AIP(AI平台) | 可定制,由客户定义 | 活跃,23亿美元国防部合同 | 生成式AI能力较弱;依赖基于规则的系统 |
| OpenAI | GPT-4o(机密部署) | OpenAI的使用政策 | 活跃,5亿美元试点项目 | OpenAI自身存在伦理问题;也可能终止合同 |
| Scale AI | Donovan(国防大语言模型) | 由政府定义 | 活跃,18亿美元合同 | 为国防部构建;设计上较少关注安全 |
| Anthropic | Mythos(已失去) | 宪法AI(不可更改) | 已终止 | 不再可访问 |
数据要点: Palantir的AIP是最可能的替代品,但它缺乏Mythos的生成式AI sophistication。OpenAI的GPT-4o紧随其后,但OpenAI自身也有伦理冲突的历史(例如2023年的董事会危机)。