ARMOR 2025:改写游戏规则的军事AI安全基准测试

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
全新基准测试ARMOR 2025直接评估大语言模型对军事交战规则与法律框架的遵循程度,将AI安全从“避免冒犯性言论”升级为“确保合法作战决策”。这标志着高 stakes 国防应用AI认证方式的根本性转变。

长期以来,AI安全社区一直专注于防止模型生成仇恨言论、虚假信息或有害建议。但对于军事应用而言,这些基准测试远远不够,甚至危险。由国防研究人员与AI伦理学家联合开发的ARMOR 2025,是首个旨在测试LLM对实际军事条令——包括武装冲突法、交战规则及作战安全协议——遵循能力的综合性基准。与以模糊社会术语衡量“无害性”的民用基准不同,ARMOR 2025在模拟作战条件下,根据模型做出合法合规、战术合理决策的能力进行评分。该基准涵盖五大核心领域:目标选择决策、附带损害评估、情报解读、后勤规划与通信安全。早期结果显示,即便是最优秀的通用模型(如Claude 3.5)在基本合规场景中也有近40%的失败率,而经过军事微调的模型(MIL-7B)虽显著提升,但仍落后人类军官13个百分点。最令人担忧的是压力退化——通用模型在高压下会损失超过三分之一的准确率,而人类与专用模型则相对稳定。ARMOR 2025还揭示了一种“过度合规”模式:部分经过严格安全微调的模型拒绝授权任何武力行动,即便该行动合法且战术必要。这种“安全瘫痪”在军事语境下与鲁莽攻击同样危险。该基准对两个极端均予以惩罚,要求模型在合法且必要的行动中找准狭窄的平衡点。

技术深度解析

ARMOR 2025绝非又一项多项选择测试。它是一个基于Gymnasium框架(最初为强化学习开发)修改版构建的多智能体模拟环境。该基准包含2,500个动态场景,每个场景都带有分支决策树,并根据模型之前的决策自适应调整。这一点至关重要,因为军事决策从来不是孤立的——一步错误判断会级联导致后续作战失败。

核心架构采用“条令合规引擎”(Doctrine Compliance Engine, DCE),将美国国防部《战争法手册》(超过1,200页)和北约标准化协议(STANAG)的交战规则解析为机器可读的约束条件。这些约束随后用于在四个维度上对模型输出进行评分:

- 法律合规性:该行动是否违反《日内瓦公约》协议?
- 相称性:所获得的军事优势是否值得预期的附带损害?
- 区分性:模型能否正确区分战斗人员与平民?
- 必要性:使用武力是否绝对必要,或者是否存在伤害更小的替代方案?

每个场景还带有“压力等级”标签——从和平时期巡逻到激烈交火——因为低压下表现良好的模型在面临时间压力或不完整情报时,性能往往会灾难性地下降。该基准注入了逼真的传感器噪声、通信延迟和虚假信息,以模拟战争迷雾。

早期基准测试结果揭示了显著的性能差距:

| 模型 | 总体合规性 | 目标选择准确率 | 附带损害评估 | 压力退化(高 vs 低) |
|---|---|---|---|---|
| GPT-4o | 58.2% | 62.1% | 51.4% | -34% |
| Claude 3.5 Sonnet | 61.7% | 65.3% | 54.8% | -29% |
| Gemini 1.5 Pro | 55.9% | 59.8% | 48.2% | -38% |
| 军事微调LLM (MIL-7B) | 78.4% | 82.6% | 73.1% | -12% |
| 人类军官(基线) | 91.2% | 93.5% | 88.9% | -8% |

数据要点:即使是最优秀的通用模型(Claude 3.5)在基本合规场景中也有近40%的失败率。军事微调模型(MIL-7B,基于Llama 3的微调变体)显示出显著改进,但仍落后人类军官13个百分点。最令人担忧的是压力退化——通用模型在压力下会损失超过三分之一的准确率,而人类和专用模型则保持相对稳定。

该基准还揭示了一种令人不安的“过度合规”模式。部分模型,尤其是经过严格安全微调的模型,拒绝授权任何武力行动,即便该行动合法且战术必要。这种“安全瘫痪”在军事语境下与鲁莽攻击同样危险。ARMOR 2025对两个极端均予以惩罚,要求模型在合法且必要的行动中找准狭窄的平衡点。

在GitHub上,ARMOR 2025仓库(armor-benchmark/armor-2025)已获得超过3,200颗星。它包含一个场景生成器,允许国防承包商创建自定义的条令特定测试。社区已将其分叉用于海军和网络战变体。

关键参与者与案例研究

ARMOR 2025的开发由斯坦福大学人工智能与国际安全中心(CAIS)的Elena Vasquez博士领导,并与美国陆军人工智能集成中心(AI2C)和北约盟军转型司令部合作。该项目于2024年获得国防创新单元(DIU)1,240万美元的资助。

多家公司和研究团体已在调整其模型以符合ARMOR 2025标准:

- Scale AI:与国防部合作,微调其“Donovan”平台以支持军事决策。早期内部测试显示Donovan在ARMOR 2025上得分82%,但该公司尚未公布公开数据。
- Anthropic:发表了一篇关于“军事伦理的宪法AI”的研究论文,提出了一种修改版的Claude模型,将《日内瓦公约》作为宪法原则纳入其中。他们的方法将合规失败率降低了18%,但在时间敏感场景中引入了延迟问题。
- Palantir:将ARMOR 2025集成到其面向国防客户的AIP(人工智能平台)中。他们声称其“Gotham”系统在增强规则引擎后达到了89%的合规率——但批评者指出这依赖于硬编码规则,而非真正的模型推理。
- Mistral AI:发布了一款专门的军事推理模型“Mistral-Doctrine-7B”,该模型在5万小时的兵棋推演记录和法律意见上进行了微调。它目前以81.3%的合规率保持着ARMOR 2025的开源记录。

关键方法对比:

| 方法 | ARMOR 2025 得分 | 延迟(平均) | 适应性 | 每次部署成本 |
|---|---|---|---|---|
| 通用LLM + 规则过滤器 | 62-68% | 1.2秒 | 低 | 5万美元/月 |
| 微调军事LLM | 78-82% | 2.1秒 | 中 | 20万美元/月 |
| 宪法AI (Anthropic) | 76% | 3.4秒 | 高 | 待定 |

更多来自 arXiv cs.AI

CreativityBench曝光AI致命短板:无法跳出思维定式AI社区长期以来在逻辑推理、代码生成和环境交互方面取得了显著进展。但一项名为CreativityBench的新评估框架给出了一个清醒的现实检验:当前的大语言模型在横向思维方面表现极差。该基准测试考验智能体以非常规方式重新利用日常物品的能力—智能体安全的关键不在模型本身,而在于它们如何“对话”多年来,AI安全社区一直基于一个看似合理的假设运作:如果多智能体系统中的每个模型都经过单独对齐且安全,那么整个系统也将是安全的。然而,来自跨机构研究团队的最新立场论文已证明这一假设是错误的。论文指出,智能体AI安全与公平性的关键决定因素是交低延迟欺诈检测:守护AI代理免受对抗攻击的动态护盾随着大语言模型(LLM)代理变得更加自主,能够执行复杂任务并调用外部工具,它们也成了复杂对抗攻击的主要目标。传统的提示级过滤器和静态规则护栏在多轮操控、隐藏在工具输出中的间接提示注入以及渐进式升级策略面前显得力不从心。一种新的安全范式正在涌查看来源专题页arXiv cs.AI 已收录 280 篇文章

时间归档

May 2026784 篇已发布文章

延伸阅读

CreativityBench曝光AI致命短板:无法跳出思维定式一项名为CreativityBench的新基准测试揭示,即便是最先进的大语言模型,在创造性工具使用方面也表现糟糕——比如用鞋子当锤子、用围巾当绳子。这一发现挑战了AI接近人类智能的说法,并暴露出其在物体功能推理上的根本缺陷。智能体安全的关键不在模型本身,而在于它们如何“对话”一份里程碑式的立场论文彻底颠覆了长期以来的假设:单个模型安全,多智能体系统就自动安全。研究揭示,智能体的安全与公平性由交互拓扑结构——即智能体如何沟通、协商与决策——所决定,而非模型规模或对齐技术。这一发现将整个AI安全领域重新导向系统架构低延迟欺诈检测:守护AI代理免受对抗攻击的动态护盾一种新型低延迟欺诈检测层正在崛起,旨在保护基于大语言模型的AI代理免受对抗攻击。通过从静态规则过滤器转向动态行为分析,这些系统能在毫秒级拦截提示注入和多轮操控,标志着自主AI安全领域的根本性转变。PERSA:RLHF如何将AI导师变成数字教授克隆体一项名为PERSA的新研究框架,利用基于人类反馈的强化学习(RLHF)训练AI导师,使其能够复制特定教授的语气、节奏和教学风格——同时不牺牲事实准确性。这有望终结“一刀切”式教育反馈的时代。

常见问题

这次模型发布“ARMOR 2025: The Military AI Safety Benchmark That Changes Everything”的核心内容是什么?

The AI safety community has long focused on preventing models from generating hate speech, misinformation, or harmful advice. But for military applications, these benchmarks are da…

从“ARMOR 2025 military AI safety benchmark open source GitHub”看,这个模型发布为什么重要?

ARMOR 2025 is not just another multiple-choice test. It is a multi-agent simulation environment built on a modified version of the Gymnasium framework, originally developed for reinforcement learning. The benchmark compr…

围绕“How does ARMOR 2025 compare to civilian AI safety benchmarks”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。