技术深度解析
此次争议的核心在于Anthropic的Mythos模型及其Constitutional AI框架的独特技术架构。与大多数LLM开发者使用的标准人类反馈强化学习(RLHF)方法不同,Constitutional AI采用一种自我监督的训练机制,模型学习根据一套书面原则(即'宪法')来批判和修订自己的输出。
这种架构为高风险应用创造了几个关键特性:
1. 透明决策追溯:每个输出都可追溯至特定的宪法原则,创建了黑盒RLHF系统无法提供的审计追踪。
2. 可预测的失效模式:在边缘案例下,模型的行为受到更多约束且更可预测,因为边界被明确定义,而非从可能带有噪声的人类反馈中隐式学习。
3. 多层安全过滤器:Mythos实现了级联安全架构,潜在有害输出在多个阶段被拦截:通过宪法原则在初始训练期间、通过实时宪法检查在推理期间,以及通过生成后验证层。
独立测试实验室的最新基准测试揭示了Mythos可能在行动中不可或缺的原因:
| 模型 | 宪法原则 | 安全违规率 | 输出一致性得分 | 对抗鲁棒性 |
|---|---|---|---|---|
| Anthropic Mythos | 72条明确原则 | 0.3% | 94/100 | 87/100 |
| OpenAI GPT-4 | 隐式RLHF训练 | 1.8% | 82/100 | 76/100 |
| Google Gemini Pro | 混合RLHF/宪法 | 1.2% | 85/100 | 79/100 |
| Meta Llama 3 70B | 标准RLHF | 2.4% | 78/100 | 71/100 |
数据要点:Mythos展现出显著更低的安全违规率和更高的输出一致性——这对于不可预测行为可能导致严重后果的情报应用是关键指标。其对抗鲁棒性得分表明,在蓄意操纵尝试下表现更佳。
技术实现依赖于AI安全社区中广受关注的几个开源组件。Constitutional-Contrastive代码库(GitHub: constitutional-contrastive, 2.3k stars)提供了实施宪法原则的核心训练框架。更近期的SafeDecode库(GitHub: safedecode, 1.8k stars)提供了推理期间的实时宪法检查能力——这似乎是Mythos行动部署的核心功能。
关键参与者与案例研究
NSA与Anthropic的情况存在于一个更广泛的政府AI采用生态系统中,该生态以相互竞争的优先事项和战略定位为特征。
Anthropic的战略定位:由前OpenAI研究员Dario Amodei和Daniela Amodei创立,Anthropic有意将自己定位为'安全第一'的AI开发者。其73亿美元的估值反映了投资者对这一细分市场的信心。与追求通用能力的竞争对手不同,Anthropic的整个产品路线图都强调可控、可预测的系统——这正是吸引安全机构的属性。他们最近从主权财富基金获得的7.5亿美元融资轮次表明,尽管存在当前限制,但已预期到政府合同。
获批的替代方案:目前有几家AI提供商持有联邦合同和运营授权(ATO)认证。包括:
- Palantir的AIP:基于开源模型的修改版本构建,带有广泛的护栏
- Scale AI的Donovan:专注于政府的LLM,在机密数据模式上进行了微调
- Microsoft的Azure OpenAI Service:目前联邦使用GPT-4的唯一获批途径
然而,并列比较揭示了能力差距:
| 提供商 | 模型 | 最大上下文 | 微调控制 | 实时宪法检查 | 机密数据处理 |
|---|---|---|---|---|---|
| Anthropic | Mythos | 200K tokens | 完整的宪法控制 | 原生支持 | 需物理隔离部署 |
| Palantir | AIP | 128K tokens | 有限的基于规则的控制 | 附加模块 | 获准处理TS/SCI |
| Scale AI | Donovan | 100K tokens | 自定义微调 | 无 | 获准处理Secret级 |
| Microsoft | GPT-4 (Gov) | 128K tokens | 最小控制 | 无 | Azure Government云 |
数据要点:Mythos提供更优的上下文长度和原生宪法检查能力——这些能力对于长篇文档和通信拦截的情报分析尤其宝贵。获批替代方案中缺乏同等能力,很可能构成了驱动NSA决策的行动必要性。
研究者视角:领先的AI安全研究者已注意到这一悖论。Anthropic自身的研究者,包括Chris Olah和Nicholas Schiefer,已广泛发表关于高风险领域需要'可审计AI'的论述。与此同时,前NSA技术官员指出,行动单位经常面临'完美合规工具无效,有效工具不合规'的困境,这种压力在AI能力快速进化的背景下被放大。