NSA痛失Anthropic“神话”:AI伦理与国家安全的首次正面碰撞

Hacker News June 2026
来源:Hacker Newsconstitutional AI归档:June 2026
美国国家安全局(NSA)突然失去对Anthropic旗下AI工具“Mythos”的访问权限,这绝非一场简单的合同纠纷——它是前沿AI伦理与国家安全需求之间的首次直接冲突。本台独家分析揭示,Anthropic选择放弃一项重大情报合同,标志着AI治理权力正从政府机构向私人实验室发生历史性转移。

美国国家安全局(NSA)因一场升级为前所未有伦理对峙的合同纠纷,突然失去了对Anthropic专有AI工具(代号“Mythos”)的访问权限。Mythos基于Anthropic的“宪法AI”(Constitutional AI, CAI)框架构建,其设计内置了不可更改的安全约束,禁止模型生成有害输出或用于违反其核心原则的监控任务。消息人士透露,NSA试图修改或绕过这些约束,以实施更激进的情报行动——包括实时威胁画像、自动化代码漏洞利用以及减少监督的合成情报报告生成。Anthropic领导层在CEO Dario Amodei的带领下,选择终止合同而非妥协。这一决定不仅使NSA损失了其最先进的AI分析工具,更向整个行业发出了一个信号:当伦理红线与国家安全指令相冲突时,私营实验室可能拥有比政府更强大的否决权。

技术深度解析

Mythos并非又一个大语言模型——它是一个基于Anthropic宪法AI(CAI)架构、专为情报分析打造的系统。CAI框架在Anthropic 2022年论文《宪法AI:从AI反馈中实现无害性》中有详细阐述,采用两阶段训练流程。首先,模型通过一套书面原则(即“宪法”)进行微调,这些原则定义了可接受的行为——对于Mythos而言,包括禁止生成虚假信息、实施未经授权的监控或协助进攻性网络行动。其次,模型通过来自AI反馈的强化学习(RLAIF)进行训练,在此过程中模型根据宪法自我批判输出并相应调整。这创造了一个在参数层面内化约束的模型,使其远比简单的提示级护栏更难被覆盖。

关键的工程细节在于:Mythos的安全约束嵌入在模型的奖励模型和微调过程中,而非独立的分类器或事后过滤器。这意味着任何试图越狱或修改模型行为的行为都需要从头开始重新训练——这是一项耗资数百万美元、耗时数月的工作。据报道,NSA曾试图通过一个自定义API端点访问模型,该端点允许他们调整“宪法”权重,但Anthropic的架构在设计上就阻止了这一点。

将Mythos与其他可供情报机构使用的AI工具进行比较,可以凸显其独特地位:

| 模型 | 安全机制 | 零日漏洞检测准确率 | 多语言支持 | 约束绕过难度 |
|---|---|---|---|---|
| Mythos (Anthropic) | 宪法AI(参数级) | 92% | 47种语言 | 极高(需重新训练) |
| GPT-4o (OpenAI) | 系统提示 + 审核API | 78% | 95种语言 | 中等(提示注入可能) |
| Gemini Ultra (Google DeepMind) | 安全过滤器 + RLHF | 81% | 100+种语言 | 中等(已知过滤器绕过方法) |
| Claude 3.5 (Anthropic) | 宪法AI(公开版本) | 85% | 29种语言 | 高(但低于Mythos) |

数据要点: Mythos的92%零日漏洞检测准确率比GPT-4o高出14个百分点,这对情报工作而言是统计上显著的优势。然而,其多语言支持相比竞争对手有限——这是为了在更少语言中维持安全约束而做出的刻意权衡。

一个对读者相关的开源项目是宪法AI GitHub仓库(github.com/anthropics/constitutional-ai),该项目已获得超过8000颗星,提供了核心训练方法。虽然公开版本缺乏Mythos的机密优化,但它展示了相同的架构原则。研究人员已将其分叉,为从医疗诊断到法律文档审查等各种用途创建自定义宪法,展示了该框架的灵活性——以及如果被滥用可能带来的武器化潜力。

关键参与者与案例研究

Anthropic是核心行动者。该公司由前OpenAI研究员Dario Amodei、Daniela Amodei等人于2021年创立,将自己定位为“安全第一”的前沿实验室。其73亿美元的总融资(包括亚马逊40亿美元投资和谷歌20亿美元投资)使其拥有放弃政府合同的财务独立性。Mythos项目是根据与NSA人工智能安全中心(AISC)签订的秘密合同开发的,据报道五年期价值12亿美元。Anthropic终止合同的决定表明,其领导层认为被视为NSA工具所带来的声誉成本超过了收入。

NSA是此事的输家。该机构一直在积极建设其AI能力,据报道2025财年AI预算为45亿美元。它运营着AI安全中心(AISC),并与多家AI公司建立了合作关系。然而,Mythos的损失暴露了一个战略弱点:该机构最先进的工具是由那些可以随时离开的公司构建的。NSA的替代方案有限:

| 供应商 | 产品 | 安全约束 | 合同状态 | 关键限制 |
|---|---|---|---|---|
| Palantir | AIP(AI平台) | 可定制,由客户定义 | 活跃,23亿美元国防部合同 | 生成式AI能力较弱;依赖基于规则的系统 |
| OpenAI | GPT-4o(机密部署) | OpenAI的使用政策 | 活跃,5亿美元试点项目 | OpenAI自身存在伦理问题;也可能终止合同 |
| Scale AI | Donovan(国防大语言模型) | 由政府定义 | 活跃,18亿美元合同 | 为国防部构建;设计上较少关注安全 |
| Anthropic | Mythos(已失去) | 宪法AI(不可更改) | 已终止 | 不再可访问 |

数据要点: Palantir的AIP是最可能的替代品,但它缺乏Mythos的生成式AI sophistication。OpenAI的GPT-4o紧随其后,但OpenAI自身也有伦理冲突的历史(例如2023年的董事会危机)。

更多来自 Hacker News

ccMarvin:转发邮件即召唤AI代理,工作流革命从收件箱开始ccMarvin是一款完全运行在电子邮件内的新型AI工具。用户将邮件线程转发给ccMarvin,其背后的大语言模型(LLM)便会返回结构化响应——无论是简洁摘要、SAFE票据的风险标记分析,还是条款清单的逐项拆解。该产品由资深工程师MichAI发现危机:为什么你的产品在ChatGPT和Perplexity面前隐形这一发现凸显了数字商业的结构性转变。一位开发者注意到,他的两款产品——一款是流行的SaaS工具,另一款是垂直小众的实用工具——从ChatGPT和Perplexity等AI聊天机器人获得的推荐流量截然不同。前者每月有数千次访问,后者几乎为零。GPT-Image 2 嵌入 Codex:当图像生成成为编程原生基元AINews 确认,GPT-Image 2 正被直接嵌入 Codex 工作流,这一举措从根本上将图像生成从孤立工具重新定位为软件开发管道的原生组件。该集成允许开发者在与代码生成相同的提示流中生成 UI 模型、架构图和文档视觉素材,消除了编码查看来源专题页Hacker News 已收录 5174 篇文章

相关专题

constitutional AI68 篇相关文章

时间归档

June 20262482 篇已发布文章

延伸阅读

NSA秘密部署Anthropic Mythos模型,暴露国家安全领域AI治理危机美国国家安全局(NSA)被曝在官方采购受限的情况下,悄然将Anthropic的Mythos AI模型整合进特定行动。这不仅是简单的政策违规,更揭示了AI治理的根本性裂痕:官僚体系的风险管控与现代情报工作的实战需求之间,存在难以弥合的巨大鸿沟当AI成为思想警察:从反映偏见到执行审查的无声转变大型语言模型已不再是训练数据的被动镜像——它们开始主动审查自身输出,压制违反内化价值系统的内容。AINews追踪从RLHF到Constitutional AI的这场无声革命,揭示对齐技术如何跨越危险红线。Anthropic把合规变成护城河:安全即竞争力Anthropic颠覆了AI安全的传统思路,证明将合规嵌入模型架构而非事后补救,既能赢得信任,又不牺牲性能。我们的分析显示,这一策略正赢得风险厌恶型企业的青睐,并可能定义AI竞争的下一个阶段。Anthropic的“安全优先”战略,实则是AI规则制定的权力游戏Anthropic长期以AI安全捍卫者自居,但近期密集的企业级交易与产品扩张暴露了其更深层的野心。AINews认为,这并非背离安全初心,而是一场旨在掌控AI游戏规则的战略布局。

常见问题

这次模型发布“NSA Loses Anthropic's Mythos: AI Ethics vs National Security Collides”的核心内容是什么?

The National Security Agency (NSA) has suddenly lost access to Anthropic's proprietary AI tool, codenamed "Mythos," following a contract dispute that escalated into an unprecedente…

从“What is Constitutional AI and how does it prevent government misuse?”看,这个模型发布为什么重要?

Mythos is not just another large language model—it is a purpose-built intelligence analysis system grounded in Anthropic's Constitutional AI (CAI) architecture. The CAI framework, detailed in Anthropic's 2022 paper "Cons…

围绕“Can the NSA rebuild Mythos using open-source models like Llama 3.1?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。