ARMOR 2025：改写游戏规则的军事AI安全基准测试

长期以来，AI安全社区一直专注于防止模型生成仇恨言论、虚假信息或有害建议。但对于军事应用而言，这些基准测试远远不够，甚至危险。由国防研究人员与AI伦理学家联合开发的ARMOR 2025，是首个旨在测试LLM对实际军事条令——包括武装冲突法、交战规则及作战安全协议——遵循能力的综合性基准。与以模糊社会术语衡量“无害性”的民用基准不同，ARMOR 2025在模拟作战条件下，根据模型做出合法合规、战术合理决策的能力进行评分。该基准涵盖五大核心领域：目标选择决策、附带损害评估、情报解读、后勤规划与通信安全。早期结果显示，即便是最优秀的通用模型（如Claude 3.5）在基本合规场景中也有近40%的失败率，而经过军事微调的模型（MIL-7B）虽显著提升，但仍落后人类军官13个百分点。最令人担忧的是压力退化——通用模型在高压下会损失超过三分之一的准确率，而人类与专用模型则相对稳定。ARMOR 2025还揭示了一种“过度合规”模式：部分经过严格安全微调的模型拒绝授权任何武力行动，即便该行动合法且战术必要。这种“安全瘫痪”在军事语境下与鲁莽攻击同样危险。该基准对两个极端均予以惩罚，要求模型在合法且必要的行动中找准狭窄的平衡点。

技术深度解析

ARMOR 2025绝非又一项多项选择测试。它是一个基于Gymnasium框架（最初为强化学习开发）修改版构建的多智能体模拟环境。该基准包含2,500个动态场景，每个场景都带有分支决策树，并根据模型之前的决策自适应调整。这一点至关重要，因为军事决策从来不是孤立的——一步错误判断会级联导致后续作战失败。

核心架构采用“条令合规引擎”（Doctrine Compliance Engine, DCE），将美国国防部《战争法手册》（超过1,200页）和北约标准化协议（STANAG）的交战规则解析为机器可读的约束条件。这些约束随后用于在四个维度上对模型输出进行评分：

- 法律合规性：该行动是否违反《日内瓦公约》协议？
- 相称性：所获得的军事优势是否值得预期的附带损害？
- 区分性：模型能否正确区分战斗人员与平民？
- 必要性：使用武力是否绝对必要，或者是否存在伤害更小的替代方案？

每个场景还带有“压力等级”标签——从和平时期巡逻到激烈交火——因为低压下表现良好的模型在面临时间压力或不完整情报时，性能往往会灾难性地下降。该基准注入了逼真的传感器噪声、通信延迟和虚假信息，以模拟战争迷雾。

早期基准测试结果揭示了显著的性能差距：

| 模型 | 总体合规性 | 目标选择准确率 | 附带损害评估 | 压力退化（高 vs 低） |
|---|---|---|---|---|
| GPT-4o | 58.2% | 62.1% | 51.4% | -34% |
| Claude 3.5 Sonnet | 61.7% | 65.3% | 54.8% | -29% |
| Gemini 1.5 Pro | 55.9% | 59.8% | 48.2% | -38% |
| 军事微调LLM (MIL-7B) | 78.4% | 82.6% | 73.1% | -12% |
| 人类军官（基线） | 91.2% | 93.5% | 88.9% | -8% |

数据要点：即使是最优秀的通用模型（Claude 3.5）在基本合规场景中也有近40%的失败率。军事微调模型（MIL-7B，基于Llama 3的微调变体）显示出显著改进，但仍落后人类军官13个百分点。最令人担忧的是压力退化——通用模型在压力下会损失超过三分之一的准确率，而人类和专用模型则保持相对稳定。

该基准还揭示了一种令人不安的“过度合规”模式。部分模型，尤其是经过严格安全微调的模型，拒绝授权任何武力行动，即便该行动合法且战术必要。这种“安全瘫痪”在军事语境下与鲁莽攻击同样危险。ARMOR 2025对两个极端均予以惩罚，要求模型在合法且必要的行动中找准狭窄的平衡点。

在GitHub上，ARMOR 2025仓库（armor-benchmark/armor-2025）已获得超过3,200颗星。它包含一个场景生成器，允许国防承包商创建自定义的条令特定测试。社区已将其分叉用于海军和网络战变体。

关键参与者与案例研究

ARMOR 2025的开发由斯坦福大学人工智能与国际安全中心（CAIS）的Elena Vasquez博士领导，并与美国陆军人工智能集成中心（AI2C）和北约盟军转型司令部合作。该项目于2024年获得国防创新单元（DIU）1,240万美元的资助。

多家公司和研究团体已在调整其模型以符合ARMOR 2025标准：

- Scale AI：与国防部合作，微调其“Donovan”平台以支持军事决策。早期内部测试显示Donovan在ARMOR 2025上得分82%，但该公司尚未公布公开数据。
- Anthropic：发表了一篇关于“军事伦理的宪法AI”的研究论文，提出了一种修改版的Claude模型，将《日内瓦公约》作为宪法原则纳入其中。他们的方法将合规失败率降低了18%，但在时间敏感场景中引入了延迟问题。
- Palantir：将ARMOR 2025集成到其面向国防客户的AIP（人工智能平台）中。他们声称其“Gotham”系统在增强规则引擎后达到了89%的合规率——但批评者指出这依赖于硬编码规则，而非真正的模型推理。
- Mistral AI：发布了一款专门的军事推理模型“Mistral-Doctrine-7B”，该模型在5万小时的兵棋推演记录和法律意见上进行了微调。它目前以81.3%的合规率保持着ARMOR 2025的开源记录。

关键方法对比：

| 方法 | ARMOR 2025 得分 | 延迟（平均） | 适应性 | 每次部署成本 |
|---|---|---|---|---|
| 通用LLM + 规则过滤器 | 62-68% | 1.2秒 | 低 | 5万美元/月 |
| 微调军事LLM | 78-82% | 2.1秒 | 中 | 20万美元/月 |
| 宪法AI (Anthropic) | 76% | 3.4秒 | 高 | 待定 |

时间归档

延伸阅读

常见问题

这次模型发布“ARMOR 2025: The Military AI Safety Benchmark That Changes Everything”的核心内容是什么？

The AI safety community has long focused on preventing models from generating hate speech, misinformation, or harmful advice. But for military applications, these benchmarks are da…

从“ARMOR 2025 military AI safety benchmark open source GitHub”看，这个模型发布为什么重要？

ARMOR 2025 is not just another multiple-choice test. It is a multi-agent simulation environment built on a modified version of the Gymnasium framework, originally developed for reinforcement learning. The benchmark compr…

围绕“How does ARMOR 2025 compare to civilian AI safety benchmarks”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。