技术深度解析
支撑这一计划的技术架构,其重要性不亚于政策本身。它超越了简单的数据传输,构建了一个兼顾安全与性能的复杂分层生态系统。
其核心是 “可信AI开发环境”(Trusted AI Development Environment, TADE) 概念。这不是单一产品,而是一套针对物理隔离、加密保护的计算集群的技术规范,需满足国防部“影响等级6”(IL6)或更高级别的保密标准。像Palantir(其针对政府用途配置的Gotham和Foundry平台)以及亚马逊云科技(通过其“秘密区域”AWS Secret Region)等公司,提供了底层基础设施蓝图。AI模型将在这些“围墙花园”内训练;数据永不外流,训练完成的模型权重也将受到严格的出口管制。
对于连将数据转移至公司安全设施都不可行的场景,解决方案在于大规模应用 隐私增强技术(Privacy-Enhancing Technologies, PETs) 。联邦学习(Federated Learning, FL)是首选方案,即让模型“移步”到数据所在地。通过将全局模型发送至全球数十个安全的军事数据中心,在机密数据集上进行本地训练迭代,然后仅聚合模型更新,即可完成训练。这需要强大的算法来处理非独立同分布(non-IID)数据——这正是来自不同战区的军事数据的典型特征。开源框架在此至关重要。IBM在GitHub上的联邦学习框架(IBM FL) 以及 OpenMined的PySyft 库是社区努力的领先者,尽管它们需要经过大量加固才能应用于此安全级别的生产环境。
另一项关键技术是 差分隐私(Differential Privacy, DP) ,它通过向训练数据或梯度添加数学噪声,防止模型记忆并可能泄露特定的敏感信息。挑战在于调整噪声,以在隐私损失(epsilon)与模型效用之间取得平衡。谷歌和OpenAI在差分隐私随机梯度下降(DP-SGD)上的研究提供了基础,但将其应用于处理复杂军事数据的大规模多模态模型,仍是一个开放的工程难题。
预期的性能飞跃是巨大的。当前在ImageNet上训练的开源视觉模型,难以应对战争中常见的恶劣视觉条件(尘土、烟雾、黑夜、极端角度)。使用来自MQ-9“死神”等无人机的机密光电/红外(EO/IR)影像进行训练,将在目标检测和活动识别方面带来显著提升。
| 训练数据源 | 示例任务(沙漠中车辆识别) | 当前预估准确率 | 使用机密数据后预估准确率 | 克服的关键局限 |
|---|---|---|---|---|
| COCO, OpenImages | 清晰、俯视、白天 | 78% | - | 缺乏作战背景、伪装 |
| 合成(模拟)数据 | 多角度、部分遮蔽 | 82% | - | 仿真与现实差距、不真实的磨损/损伤 |
| 机密光电/红外数据流 | 真实沙尘、海市蜃楼、部分隐蔽 | - | 94%以上 | 对真实战场条件的高保真度 |
数据要点: 对于军事特定任务,商用数据训练的模型与机密数据训练的模型之间,性能差距可能达到15-20个百分点或更高,这相当于研究原型与作战可靠工具之间的区别。
关键参与者与案例研究
该计划正在催生一个新的国防AI承包商层级,融合了传统军工巨头与灵活的科技公司。
Anduril Industries 可以说是这种新模式的典范。由帕尔默·拉奇创立,其战略建立在垂直整合之上:开发专有硬件(如Lattice OS和自主无人机)及其驱动的AI。Anduril已在美国南部边境部署了其“哨兵塔”,该系统利用计算机视觉进行探测。获得更广泛的机密数据流,将使Anduril能够优化其模型,以进行更复杂的威胁识别和意图预测, potentially 将Lattice从传感器融合平台演变为预测性战场空间管理器。
Scale AI 已将自身定位为AI不可或缺的数据基础设施层。其旗舰产品Scale Donovan是一个基于LLM的平台,专为国防与情报分析设计,目前已用于处理非密数据。对Scale而言,五角大楼的计划印证了其核心理念:高质量、特定领域的数据标注是高性能AI的关键。他们很可能扮演关键中间人的角色,提供工具和工作流,帮助政府在安全环境中安全地准备和管理用于训练的机密数据集。
Shield AI 以其对自主系统的专注而脱颖而出,特别是其Hivemind自主栈,可使无人机在不依赖GPS或通信的情况下运行。在来自对抗性环境的机密数据上训练Hivemind,将加速其在复杂电磁环境及拒止、降级环境中的导航与决策能力。