技术深度解析
五角大楼困境的核心在于Anthropic的宪法AI架构,这是一种多阶段训练范式,旨在将伦理行为直接'烘焙'进模型权重中。该过程始于监督微调,像Claude这样的基础模型被提示生成符合一套成文原则(即'宪法')的回应。这部'宪法'包含的指令灵感来源于《联合国人权宣言》、苹果服务条款以及Anthropic自身的AI安全研究,强调有益性、无害性和诚实性。
关键的第二阶段是'来自AI反馈的强化学习'。与使用人类偏好的传统RLHF不同,RLAIF使用另一个独立的AI模型作为'评判者'。这个评判者模型根据宪法原则评估主模型生成的候选回应,并生成偏好标签。随后,主模型根据这些AI生成的偏好进行训练以最大化奖励,从而形成一个自我改进的伦理对齐循环。GitHub上的技术仓库`anthropics/constitutional-ai`提供了基础研究,尽管Claude的完整训练代码仍是专有的。
国防界的担忧集中在这些护栏在推理时如何体现。CAI模型采用一套复杂的内部'评分'系统,在生成回应前会评估潜在回应是否违反宪法。这不仅增加了计算开销,更关键的是引入了五角大楼分析人士所称的'伦理延迟'——即模型在其约束集中进行导航时产生的延迟。对于实时战场后勤优化或虚假信息活动的快速分析等应用,即使是毫秒级的额外'斟酌'也可能具有重大的作战意义。
| AI安全方法 | 训练方法 | 核心优势 | 对国防应用的作战担忧 |
|---|---|---|---|
| 宪法AI (Anthropic) | RLAIF (AI反馈) | 强大、原则性的拒绝能力;透明的规则集 | 高'伦理延迟';在模糊场景下可能过度拒绝 |
| RLHF (OpenAI) | 人类偏好标签 | 更细致、情境感知的行为 | 可预测性较低;存在'越狱'漏洞 |
| 直接偏好优化 | 简化的RL流程 | 训练高效;性能良好 | 可能放大偏好数据中的偏见 |
| 无约束基础模型 | 标准预训练 | 最大化的速度与灵活性 | 有害输出风险高;无安全保证 |
数据要点: 上表揭示了一个根本性的权衡:提供更强、更可预测伦理保证的方法(如CAI)本质上会引入计算和行为上的约束,这与国防对速度和战术适应性的需求相冲突。五角大楼正在寻求一个中间地带,而这在当前的商业产品中并不清晰存在。
关键参与者与案例研究
这场冲突涉及对国防AI持有不同愿景的多个派系。一方是与首席数字与人工智能办公室立场一致的官员,该办公室由克雷格·马特尔博士领导,主张负责任地采用商业最佳实践。他们将Anthropic的CAI视为一个风险缓释框架,对于公众信任以及AI系统在敏感角色中的长期稳定至关重要。他们的典型案例是'专家计划',即五角大楼早期将AI用于图像分析的尝试,该计划曾因伦理问题面临大规模的员工反抗和公众强烈反对——这是他们极力希望避免重演的场景。
与之对立的是来自美国中央司令部和美国印太司令部的作战指挥官,他们一直在试验约束更少的AI工具。印太司令部的第59特遣队已在波斯湾部署了使用AI进行船只识别的自主监视无人机。他们的报告显示,他们对商业模型感到沮丧,因为这些模型会以违反宪法为由,拒绝生成假设性的对抗战术或分析某些类型的心理作战材料。他们指向中国的中国人民解放军61398部队,该部队正公开将大语言模型整合到网络和信息战学说中,且没有公开的伦理监督。
由首席执行官达里奥·阿莫代领导的Anthropic自身也处于一个艰难的位置。研究背景强调AI生存风险的阿莫代曾公开表示,某些军事应用可能与宪法AI兼容,但其他应用——特别是涉及自主目标识别的——将被明确拒绝。这给五角大楼带来了固有的不确定性:Anthropic将支持哪些应用?这些决定是由旧金山的工程师做出,还是由华盛顿的战略家做出?
其他商业参与者正在密切关注。由亚历山德·王领导的Scale AI,已积极将自己定位为国防友好型AI供应商,其'红队'服务专门针对军事场景微调模型,伦理约束更少。同时,微软和谷歌等巨头凭借其庞大的政府合同和混合云基础设施,提供了更灵活(尽管可能更不透明)的定制化途径,使国防部能够根据任务需求调整AI行为。
战略影响与未来路径
这场僵局的直接后果是可能造成能力差距。虽然五角大楼在辩论,但对手却在行动。俄罗斯在乌克兰广泛使用AI进行地理空间分析和电子战,而中国则通过其'军民融合'国家战略,将商业AI突破快速转化为军事能力。中国军方研究人员发表的论文详细介绍了将LLM用于作战计划、网络攻击生成和战略欺骗,几乎没有提及西方公司强加的那种伦理审查。
从长远来看,五角大楼面临三条可能路径:
1. 建立内部'主权AI'能力:效仿美国情报界开发内部大语言模型(如据报道中情局正在开发的模型)的模式,创建一个完全在保密环境下训练、不受商业伦理约束的国防专用AI生态系统。这将代价高昂且可能落后于商业进展,但能提供最大控制权。
2. 推动'可调伦理'AI:与Anthropic等公司合作,开发允许在部署时根据授权(例如,从'严格宪法'模式切换到'战术'模式)动态调整伦理护栏的模型。这在技术上极具挑战性,并引发了关于滥用的严重问题。
3. 接受分裂的AI供应链:为不同的任务采用不同的AI:将CAI用于后勤和医疗等后台职能,同时为作战和情报开发或采购无约束的模型。这会带来互操作性问题,并可能使最强大的AI脱离最强的安全护栏。
最终,五角大楼的AI文化战争不仅仅是关于技术,更是关于身份认同:美国希望成为什么样的军事强国?在一个AI定义冲突的时代,它能否在保持其宣称的价值观的同时保持竞争优势?目前,其官僚机构内部的深刻分歧表明,美国尚未找到答案,而时钟正在滴答作响。