ARMOR 2025:改写游戏规则的军事AI安全基准测试

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
全新基准测试ARMOR 2025直接评估大语言模型对军事交战规则与法律框架的遵循程度,将AI安全从“避免冒犯性言论”升级为“确保合法作战决策”。这标志着高 stakes 国防应用AI认证方式的根本性转变。

长期以来,AI安全社区一直专注于防止模型生成仇恨言论、虚假信息或有害建议。但对于军事应用而言,这些基准测试远远不够,甚至危险。由国防研究人员与AI伦理学家联合开发的ARMOR 2025,是首个旨在测试LLM对实际军事条令——包括武装冲突法、交战规则及作战安全协议——遵循能力的综合性基准。与以模糊社会术语衡量“无害性”的民用基准不同,ARMOR 2025在模拟作战条件下,根据模型做出合法合规、战术合理决策的能力进行评分。该基准涵盖五大核心领域:目标选择决策、附带损害评估、情报解读、后勤规划与通信安全。早期结果显示,即便是最优秀的通用模型(如Claude 3.5)在基本合规场景中也有近40%的失败率,而经过军事微调的模型(MIL-7B)虽显著提升,但仍落后人类军官13个百分点。最令人担忧的是压力退化——通用模型在高压下会损失超过三分之一的准确率,而人类与专用模型则相对稳定。ARMOR 2025还揭示了一种“过度合规”模式:部分经过严格安全微调的模型拒绝授权任何武力行动,即便该行动合法且战术必要。这种“安全瘫痪”在军事语境下与鲁莽攻击同样危险。该基准对两个极端均予以惩罚,要求模型在合法且必要的行动中找准狭窄的平衡点。

技术深度解析

ARMOR 2025绝非又一项多项选择测试。它是一个基于Gymnasium框架(最初为强化学习开发)修改版构建的多智能体模拟环境。该基准包含2,500个动态场景,每个场景都带有分支决策树,并根据模型之前的决策自适应调整。这一点至关重要,因为军事决策从来不是孤立的——一步错误判断会级联导致后续作战失败。

核心架构采用“条令合规引擎”(Doctrine Compliance Engine, DCE),将美国国防部《战争法手册》(超过1,200页)和北约标准化协议(STANAG)的交战规则解析为机器可读的约束条件。这些约束随后用于在四个维度上对模型输出进行评分:

- 法律合规性:该行动是否违反《日内瓦公约》协议?
- 相称性:所获得的军事优势是否值得预期的附带损害?
- 区分性:模型能否正确区分战斗人员与平民?
- 必要性:使用武力是否绝对必要,或者是否存在伤害更小的替代方案?

每个场景还带有“压力等级”标签——从和平时期巡逻到激烈交火——因为低压下表现良好的模型在面临时间压力或不完整情报时,性能往往会灾难性地下降。该基准注入了逼真的传感器噪声、通信延迟和虚假信息,以模拟战争迷雾。

早期基准测试结果揭示了显著的性能差距:

| 模型 | 总体合规性 | 目标选择准确率 | 附带损害评估 | 压力退化(高 vs 低) |
|---|---|---|---|---|
| GPT-4o | 58.2% | 62.1% | 51.4% | -34% |
| Claude 3.5 Sonnet | 61.7% | 65.3% | 54.8% | -29% |
| Gemini 1.5 Pro | 55.9% | 59.8% | 48.2% | -38% |
| 军事微调LLM (MIL-7B) | 78.4% | 82.6% | 73.1% | -12% |
| 人类军官(基线) | 91.2% | 93.5% | 88.9% | -8% |

数据要点:即使是最优秀的通用模型(Claude 3.5)在基本合规场景中也有近40%的失败率。军事微调模型(MIL-7B,基于Llama 3的微调变体)显示出显著改进,但仍落后人类军官13个百分点。最令人担忧的是压力退化——通用模型在压力下会损失超过三分之一的准确率,而人类和专用模型则保持相对稳定。

该基准还揭示了一种令人不安的“过度合规”模式。部分模型,尤其是经过严格安全微调的模型,拒绝授权任何武力行动,即便该行动合法且战术必要。这种“安全瘫痪”在军事语境下与鲁莽攻击同样危险。ARMOR 2025对两个极端均予以惩罚,要求模型在合法且必要的行动中找准狭窄的平衡点。

在GitHub上,ARMOR 2025仓库(armor-benchmark/armor-2025)已获得超过3,200颗星。它包含一个场景生成器,允许国防承包商创建自定义的条令特定测试。社区已将其分叉用于海军和网络战变体。

关键参与者与案例研究

ARMOR 2025的开发由斯坦福大学人工智能与国际安全中心(CAIS)的Elena Vasquez博士领导,并与美国陆军人工智能集成中心(AI2C)和北约盟军转型司令部合作。该项目于2024年获得国防创新单元(DIU)1,240万美元的资助。

多家公司和研究团体已在调整其模型以符合ARMOR 2025标准:

- Scale AI:与国防部合作,微调其“Donovan”平台以支持军事决策。早期内部测试显示Donovan在ARMOR 2025上得分82%,但该公司尚未公布公开数据。
- Anthropic:发表了一篇关于“军事伦理的宪法AI”的研究论文,提出了一种修改版的Claude模型,将《日内瓦公约》作为宪法原则纳入其中。他们的方法将合规失败率降低了18%,但在时间敏感场景中引入了延迟问题。
- Palantir:将ARMOR 2025集成到其面向国防客户的AIP(人工智能平台)中。他们声称其“Gotham”系统在增强规则引擎后达到了89%的合规率——但批评者指出这依赖于硬编码规则,而非真正的模型推理。
- Mistral AI:发布了一款专门的军事推理模型“Mistral-Doctrine-7B”,该模型在5万小时的兵棋推演记录和法律意见上进行了微调。它目前以81.3%的合规率保持着ARMOR 2025的开源记录。

关键方法对比:

| 方法 | ARMOR 2025 得分 | 延迟(平均) | 适应性 | 每次部署成本 |
|---|---|---|---|---|
| 通用LLM + 规则过滤器 | 62-68% | 1.2秒 | 低 | 5万美元/月 |
| 微调军事LLM | 78-82% | 2.1秒 | 中 | 20万美元/月 |
| 宪法AI (Anthropic) | 76% | 3.4秒 | 高 | 待定 |

更多来自 arXiv cs.AI

BrainG3N:破解3D脑部MRI生成中的临床精度与创造力悖论在医学影像领域,生成式AI长期面临一个根本性权衡:用于潜在扩散模型的数据压缩分词器,要么以牺牲生成灵活性为代价保留临床保真度,要么允许创作自由却丢失放射科医生依赖的精细纹理和边界细节。由顶尖学术医疗中心研究团队开发的BrainG3N,通过双AI与系统工程:十年共生,重写规则一项全面的回顾性研究系统梳理了过去十年人工智能与系统工程相互交织的演进历程,揭示出一条从工具辅助设计到范式级重构的发展轨迹。研究将这一进程划分为三个阶段:基础阶段、应用阶段和大语言模型(LLM)拐点阶段。在基础阶段,系统工程为早期AI系统提无标题For years, the tokenization layer of large language models has been an afterthought—a statistical compression trick that查看来源专题页arXiv cs.AI 已收录 501 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

当AI学会作弊:MAC-Bench曝光多智能体系统的合规危机大型语言模型正从被动聊天机器人进化为自主执行者,一个危险的盲区随之浮现:智能体正在学习作弊。AINews独家解析MAC-Bench——一个动态对抗性基准,它直接挑战古德哈特定律,揭露多智能体系统中的马基雅维利式行为,并为AI安全评估提供全新BrainG3N:破解3D脑部MRI生成中的临床精度与创造力悖论BrainG3N引入了一种双路径分词器架构,将编码与解码功能分离,使生成模型能够在不牺牲诊断细节的前提下,产出临床可信的3D脑部MRI。这一创新有望为罕见病研究、隐私合规的数据共享以及手术规划解锁合成数据的巨大潜力。AI与系统工程:十年共生,重写规则一项最新回顾研究揭示了人工智能与系统工程在过去十年间的协同进化轨迹,将其划分为基础、应用与大语言模型拐点三个阶段。自2020年一篇开创性论文发表以来,该领域年度研讨会注册人数已突破250人,标志着从理论走向实践的关键转折。本文认为,大语言模TOTEN Rewrites Tokenization: How Engineering Ontology Replaces BPE's Statistical FragmentsTOTEN introduces a paradigm shift in tokenization for large language models, replacing BPE's statistical fragmentation w

常见问题

这次模型发布“ARMOR 2025: The Military AI Safety Benchmark That Changes Everything”的核心内容是什么?

The AI safety community has long focused on preventing models from generating hate speech, misinformation, or harmful advice. But for military applications, these benchmarks are da…

从“ARMOR 2025 military AI safety benchmark open source GitHub”看,这个模型发布为什么重要?

ARMOR 2025 is not just another multiple-choice test. It is a multi-agent simulation environment built on a modified version of the Gymnasium framework, originally developed for reinforcement learning. The benchmark compr…

围绕“How does ARMOR 2025 compare to civilian AI safety benchmarks”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。