技术深度解析
五角大楼将Anthropic排除在外的决定,根植于AI安全实施方式上根本性的架构与哲学差异。Anthropic的宪法AI(CAI)框架通过基于AI反馈的强化学习(RLAIF),将一套明确的行为规则直接嵌入模型的训练过程。这创造了一个天生受约束的模型——它会拒绝某些指令、进行自我审查,并在部署前需要经过广泛的红队测试。对于军事用例而言,这些约束是一把双刃剑:它们降低了意外升级的风险,但也限制了模型在规则可能失效的新型高风险场景中的灵活性。
相比之下,获得五角大楼合同的公司——包括OpenAI、Google DeepMind和微软——采用的安全机制更具模块化和可调节性。OpenAI的GPT-4o使用系统级安全分类器和事后过滤,而非内嵌的宪法约束。这使得五角大楼能够针对特定作战环境微调模型行为,例如在模拟战斗演习中抑制拒绝回答,或为威胁分析启用更激进的数据合成。其代价是,这些模型更容易受到越狱攻击和对抗性攻击,这一风险在开源研究中已有充分记录。
一个关键技术因素是数据主权。Anthropic的CAI模型在精选数据集上训练,并抵制偏离其宪法原则的微调。五角大楼需要的是允许对机密军事数据进行广泛微调的合作伙伴,这些数据包括来自监视系统的实时数据流、无人机遥测数据以及截获的通信信息。OpenAI和微软通过Azure Government和专用API实例提供定制部署选项,支持此类数据摄入。Anthropic拒绝在其安全护栏上妥协,使其与这种运营模式格格不入。
相关开源项目: 这场争论与开源社区的发展相呼应。Hugging Face Open LLM Leaderboard(仓库:`open-llm-leaderboard`)追踪了Meta的Llama 3.1和Mistral的Mixtral等模型,这些模型已针对军事相关任务(例如情报报告摘要)进行了微调。加州大学伯克利分校的Garage项目(`garage`)专注于自主系统的强化学习,与战场决策直接相关。值得注意的是,Anthropic的宪法AI论文(仓库:`constitutional-ai`)已被国防领域的研究人员fork,用于探索如何为军事用途放宽约束,尽管Anthropic并未认可这些fork。
性能基准测试: 下表比较了与军事部署相关的关键指标——准确性、拒绝率和对抗鲁棒性:
| 模型 | MMLU(准确性) | 拒绝率(有害提示) | 对抗鲁棒性(攻击成功率) | 微调灵活性 |
|---|---|---|---|---|
| GPT-4o | 88.7% | 92% | 12% | 高(API + 定制微调) |
| Claude 3.5 (Anthropic) | 88.3% | 98% | 5% | 低(受CAI约束) |
| Gemini Ultra (DeepMind) | 90.0% | 89% | 15% | 高(定制模块) |
| Llama 3.1 405B (Meta) | 86.4% | 85% | 18% | 非常高(开放权重) |
数据要点: Anthropic的Claude 3.5在拒绝率和对抗鲁棒性方面领先,使其成为民用领域最安全的模型。然而,对于需要低拒绝率和高微调灵活性的军事应用,GPT-4o和Gemini Ultra更为合适——这解释了五角大楼的偏好。
关键参与者与案例研究
五角大楼的合作并非铁板一块;每家公司都带来了独特的能力和战略契合点。
OpenAI 自2023年重组以来,已积极转向国防合同。它与国防科技公司Anduril Industries的合作,使得GPT-4o能够实时集成到无人机指挥控制系统中。OpenAI愿意创建一个独立的、带有放宽安全过滤器的军用级API层级,是一个决定性因素。该公司还聘请了前五角大楼官员领导其国防部门。
Google DeepMind 提供Gemini Ultra的“国防套件”,包括在安全服务器上的离线部署、加密数据管道,以及一种禁用某些安全检查的“任务模式”。DeepMind在强化学习(例如AlphaGo、AlphaFold)方面的成就,使其在自主决策领域具有可信度。五角大楼正专门使用Gemini进行后勤优化和飞机预测性维护。
微软 提供面向政府的Azure OpenAI服务,在隔离基础设施上托管GPT-4和DALL-E 3。微软与五角大楼现有的220亿美元HoloLens和云服务合同,使其具有深度整合优势。该公司还在开发一个定制的“战术AI”模型,该模型基于事后报告和野战手册进行微调。
Anthropic 的缺席同样值得关注。该公司首席执行官Dario Amodei曾公开表示,Anthropic不会开发用于武器系统的AI。尽管Anthropic的模型在安全基准测试中表现优异,但其对宪法AI原则的坚持——包括拒绝生成有害内容、抵制针对特定军事任务的微调——使其在五角大楼眼中成为一个不灵活的合作伙伴。Anthropic的立场在AI安全社区中赢得了赞誉,但也使其在利润丰厚的国防市场中处于边缘地位。