技术深度解析
白宫不满的核心,在于其认为缺乏可验证的安全保障。尽管Anthropic开创了“负责任的扩展政策”(RSP)框架——一套当模型能力达到特定阈值时触发额外安全措施的内部协议——但政府发现这些协议是自我评估且不透明的。政府要求从自我监管转向外部可审计的合规。
在技术层面,争议围绕三个关键领域展开:
1. 红队测试与评估标准化: Anthropic使用内部和签约的红队,但白宫希望有一套标准化的、政府批准的评估套件。这让人联想到围绕MLCommons AI安全基准的争论,但这次是针对前沿模型。政府希望看到具体的、可重复的测试,能够针对自主复制、自我泄露和长期规划等能力产生通过/失败的结果。
2. 可解释性与监控: Anthropic在机械可解释性方面发表了开创性工作,特别是使用稀疏自编码器来识别像Claude这样的模型中的特征。然而,据报道,白宫对这项研究未能转化为实时监控系统表示失望——这种系统可以在部署期间标记危险的内部状态。政府想要的是一个“黑匣子”飞行记录器,而不仅仅是事后分析。
3. 算力治理: 一个主要的争议点在于执行“算力上限”或“训练暂停”的能力。Anthropic认为,此类控制会扼杀研究,并且公司的内部治理已经足够。然而,白宫正在推动建立一个系统,使政府理论上能够强制暂停超过特定算力阈值的训练运行——这一权力将从根本上改变整个行业。
相关开源工作: 社区正在密切关注Anthropic Interpretability GitHub仓库(其星标数激增,现已超过15,000),寻找实时监控进展的迹象。与此同时,英国AI安全研究所的开源评估框架Inspect,正被政府官员引用为一种标准化、可审计测试的潜在模板。
| 评估方面 | Anthropic当前方法 | 白宫要求 | 差距 |
|---|---|---|---|
| 红队测试 | 内部+签约,灵活范围 | 标准化、政府批准的测试套件 | 缺乏可重复的通过/失败标准 |
| 模型监控 | 事后可解释性研究 | 实时内部状态监控 | 不存在生产就绪的系统 |
| 算力治理 | 自我实施的RSP触发机制 | 政府可执行的算力上限 | 实验室自主权的丧失 |
数据要点: 该表格揭示了一个根本性的期望错位。白宫想要确定性的、可执行的控制;Anthropic提供的是概率性的、研究驱动的保障。这不是一个可以通过更多工程来弥合的技术差距——这是一个哲学上的鸿沟。
关键参与者与案例研究
Anthropic: 这家由前OpenAI员工Dario Amodei和Daniela Amodei创立的公司,其品牌建立在安全之上。其“长期利益信托”结构旨在防止股东至上凌驾于安全之上。然而,这场危机揭示了该结构的局限性:它无法保护公司免受外部政治压力。公司长期以来吹嘘为吸引顶尖人才竞争优势的远程优先文化,如今在需要物理存在和面对面关系管理的危机中,反而成了一种负担。
白宫科技政策办公室(OSTP): 在Arati Prabhakar的领导下,OSTP采取了比许多人预期更为激进的立场。政府的AI行政令(2023年10月)规定了安全测试的要求,但执行一直不一致。当前的危机表明,白宫正在从“自愿承诺”转向“强制合规”。
竞争实验室: OpenAI和Google DeepMind正在密切关注这一局势。OpenAI自身也有与监管摩擦的历史,它公开采取更和解的姿态,同时私下游说寻求更宽松的监管。Google DeepMind凭借其与Google华盛顿游说机器的深厚联系,被认为更能驾驭这一新的政治现实。这场危机可能迫使Anthropic组建自己的华盛顿游说团队——对于一家以精简为傲的公司来说,这是一笔巨大的成本。
| 公司 | 华盛顿存在感 | 游说支出(2024年预估) | 对可验证安全的态度 |
|---|---|---|---|
| Anthropic | 极少(仅危机团队) | <100万美元 | 灵活、研究驱动 |
| OpenAI | 正在增长(雇佣前监管人员) | ~500万美元 | 合作