技术深度解析
责任之争从根本上源于AI安全与能力评估方面不同的技术路线。OpenAI对严格责任的支持,表明其对特定技术方法论的信心,这些方法论能够经受住严格的认证要求。
OpenAI用于可认证安全的技术储备:
OpenAI在可能构成责任辩护基础的技术上投入巨大。其可扩展监督研究,特别是通过弱到强泛化和递归奖励建模等项目,旨在创建能够由能力较弱模型监督的系统——如果人类监督变得不足,这将是一个关键要求。其自动化红队测试流程,利用AI系统生成对抗性测试案例,提供了系统性的漏洞评估。最重要的是,OpenAI在超级对齐方面的工作——即2023年宣布的为期4年、投入20%算力的承诺——旨在解决控制比其创造者更智能的系统这一核心问题。如果成功,这些技术可以为在严格责任制度下认证系统“足够安全”提供技术基础。
Anthropic的宪法AI框架:
Anthropic的反对源于其独特的宪法AI方法论,即通过自我批判和来自AI反馈的强化学习来训练模型遵循一套书面原则。这种方法通过稀疏自编码器等架构选择进行特征可视化,并结合机械可解释性研究,强调可解释性和可控性。Anthropic最近开源的Circuits Framework为理解模型内部机制提供了工具。他们的担忧在于,责任压力将迫使在这些可解释性工具成熟之前就进行部署,从而创建出故障模式无法被正确诊断的系统。
基准测试的差距:
当前的安全基准测试不足以用于责任判定。虽然像MMLU这样的标准评估衡量的是能力,但针对安全的基准测试仍然不成熟。下表显示了当前前沿模型评估的现状:
| 模型 | MMLU(能力) | HumanEval(编码) | TruthfulQA(真实性) | 安全基准测试(专有) |
|---|---|---|---|---|
| GPT-4 Turbo | 86.4% | 90.2% | 78.3% | 未公开披露 |
| Claude 3 Opus | 88.3% | 84.9% | 81.2% | 宪法AI评估套件 |
| Gemini Ultra | 83.7% | 74.4% | 76.8% | 未公开披露 |
| Llama 3 70B | 82.0% | 81.7% | 70.1% | 开源安全评估 |
数据启示: 缺乏标准化、透明的安全基准测试,为责任制度带来了根本性问题。没有公认的度量标准,认证就变得主观且可能被操纵,有利于那些有资源开发专有评估套件的组织。
GitHub生态系统影响:
开源社区面临特殊挑战。像OpenAssistant、LAION的数据集以及Hugging Face上的微调模型等项目可能面临不成比例的责任负担。对齐研究中心针对自主复制的评估提供了关键的安全测试,但并非为法律认证而设计。如果责任延伸到开源贡献者,开发工作可能会转向更集中化、由企业控制的代码库。
关键参与者与案例研究
OpenAI的战略考量:
OpenAI的支持代表了一种精心的赌注,即其在对齐研究上的技术领先优势可以转化为监管优势。首席执行官Sam Altman一贯主张建立监管框架,同时保持激进的部署时间表。该公司向AI智能体和多模态世界模型的转型,需要可预测的责任环境以促进企业采用。通过支持严格责任,OpenAI可能试图塑造有利于其特定技术路线的法规,同时为采用不同安全方法的竞争对手制造壁垒。
Anthropic的原则性反对:
Anthropic的联合创始人Dario Amodei和Daniela Amodei围绕谨慎、有原则的开发理念创建了公司。他们的反对反映了真正的担忧,即责任制度会扭曲研究重点。Anthropic的长期利益信托治理结构明确将安全置于利润之上,这使得他们对可能激励过早部署的法规特别敏感。他们最近发表的论文《红队测试的缩放定律》认为,安全测试的规模必须随能力超线性增长——这一要求可能与固定的责任期限不相容。
其他行业立场:
- 谷歌DeepMind:采取中间立场,主张特定领域的责任而非一刀切的规则。
- Meta:反对对开源模型实施严格责任,认为这会扼杀社区发展。