技术深度解析
ARMOR 2025绝非又一项多项选择测试。它是一个基于Gymnasium框架(最初为强化学习开发)修改版构建的多智能体模拟环境。该基准包含2,500个动态场景,每个场景都带有分支决策树,并根据模型之前的决策自适应调整。这一点至关重要,因为军事决策从来不是孤立的——一步错误判断会级联导致后续作战失败。
核心架构采用“条令合规引擎”(Doctrine Compliance Engine, DCE),将美国国防部《战争法手册》(超过1,200页)和北约标准化协议(STANAG)的交战规则解析为机器可读的约束条件。这些约束随后用于在四个维度上对模型输出进行评分:
- 法律合规性:该行动是否违反《日内瓦公约》协议?
- 相称性:所获得的军事优势是否值得预期的附带损害?
- 区分性:模型能否正确区分战斗人员与平民?
- 必要性:使用武力是否绝对必要,或者是否存在伤害更小的替代方案?
每个场景还带有“压力等级”标签——从和平时期巡逻到激烈交火——因为低压下表现良好的模型在面临时间压力或不完整情报时,性能往往会灾难性地下降。该基准注入了逼真的传感器噪声、通信延迟和虚假信息,以模拟战争迷雾。
早期基准测试结果揭示了显著的性能差距:
| 模型 | 总体合规性 | 目标选择准确率 | 附带损害评估 | 压力退化(高 vs 低) |
|---|---|---|---|---|
| GPT-4o | 58.2% | 62.1% | 51.4% | -34% |
| Claude 3.5 Sonnet | 61.7% | 65.3% | 54.8% | -29% |
| Gemini 1.5 Pro | 55.9% | 59.8% | 48.2% | -38% |
| 军事微调LLM (MIL-7B) | 78.4% | 82.6% | 73.1% | -12% |
| 人类军官(基线) | 91.2% | 93.5% | 88.9% | -8% |
数据要点:即使是最优秀的通用模型(Claude 3.5)在基本合规场景中也有近40%的失败率。军事微调模型(MIL-7B,基于Llama 3的微调变体)显示出显著改进,但仍落后人类军官13个百分点。最令人担忧的是压力退化——通用模型在压力下会损失超过三分之一的准确率,而人类和专用模型则保持相对稳定。
该基准还揭示了一种令人不安的“过度合规”模式。部分模型,尤其是经过严格安全微调的模型,拒绝授权任何武力行动,即便该行动合法且战术必要。这种“安全瘫痪”在军事语境下与鲁莽攻击同样危险。ARMOR 2025对两个极端均予以惩罚,要求模型在合法且必要的行动中找准狭窄的平衡点。
在GitHub上,ARMOR 2025仓库(armor-benchmark/armor-2025)已获得超过3,200颗星。它包含一个场景生成器,允许国防承包商创建自定义的条令特定测试。社区已将其分叉用于海军和网络战变体。
关键参与者与案例研究
ARMOR 2025的开发由斯坦福大学人工智能与国际安全中心(CAIS)的Elena Vasquez博士领导,并与美国陆军人工智能集成中心(AI2C)和北约盟军转型司令部合作。该项目于2024年获得国防创新单元(DIU)1,240万美元的资助。
多家公司和研究团体已在调整其模型以符合ARMOR 2025标准:
- Scale AI:与国防部合作,微调其“Donovan”平台以支持军事决策。早期内部测试显示Donovan在ARMOR 2025上得分82%,但该公司尚未公布公开数据。
- Anthropic:发表了一篇关于“军事伦理的宪法AI”的研究论文,提出了一种修改版的Claude模型,将《日内瓦公约》作为宪法原则纳入其中。他们的方法将合规失败率降低了18%,但在时间敏感场景中引入了延迟问题。
- Palantir:将ARMOR 2025集成到其面向国防客户的AIP(人工智能平台)中。他们声称其“Gotham”系统在增强规则引擎后达到了89%的合规率——但批评者指出这依赖于硬编码规则,而非真正的模型推理。
- Mistral AI:发布了一款专门的军事推理模型“Mistral-Doctrine-7B”,该模型在5万小时的兵棋推演记录和法律意见上进行了微调。它目前以81.3%的合规率保持着ARMOR 2025的开源记录。
关键方法对比:
| 方法 | ARMOR 2025 得分 | 延迟(平均) | 适应性 | 每次部署成本 |
|---|---|---|---|---|
| 通用LLM + 规则过滤器 | 62-68% | 1.2秒 | 低 | 5万美元/月 |
| 微调军事LLM | 78-82% | 2.1秒 | 中 | 20万美元/月 |
| 宪法AI (Anthropic) | 76% | 3.4秒 | 高 | 待定 |