技术深度剖析
传统监管在超级智能面前的失败,根源在于时间尺度的错配。一部静态法律,一旦通过,需要数年才能修订。而一个超级智能系统,按其定义,可以在数周、数天甚至数小时内改进自身架构。这造成了监管滞后,使得任何固定规则在生效之前就已过时。
激进可选性的架构
激进可选性并非单一政策,而是一种法律系统的设计模式。它包含三个技术组件:
1. 模块化:法律框架被分解为独立模块——训练数据治理、部署许可、审计协议、责任分配——每个模块拥有自己的更新周期。这防止了一个领域的故障级联至整个系统。例如,如果出现新的可解释性技术,只需修订审计模块,而非整个监管法规。
2. 可逆性:每项监管决策必须内置日落条款或回滚机制。如果某个模型获得了部署许可,该许可将在特定期限后自动失效,除非基于新证据续期。这类似于金融市场中的“熔断机制”——当条件超过预设阈值时暂停活动的机制。
3. 递归自我改进:法律系统本身必须能够学习。这意味着嵌入反馈循环:部署后的监控数据反馈至规则制定过程,使法律能够更新自身参数。这类似于强化学习,其中“奖励”是避免灾难性后果,“策略”是监管框架。
相关开源努力
虽然没有法律框架是传统意义上的开源,但几个项目体现了这些原则:
- Constitutional AI (Anthropic):这是一种训练技术,模型由书面宪法引导。虽然本身不是法律框架,但它展示了如何将明确、可修订的规则嵌入AI系统。GitHub仓库(Anthropic在RLHF和Constitutional AI方面的开源工作)已获得超过5000颗星,并被探索价值对齐的研究人员积极使用。
- OpenAI's Model Spec:一份概述AI模型期望行为的草案文件。它有意设计为模块化——各部分可独立更新——并包含公众意见反馈机制。虽不具法律约束力,但它作为模块化、可修订治理文档的原型。
- The AI Incident Database (Partnership on AI):一个真实世界AI故障的存储库。它为递归改进提供了经验数据——没有这些数据,任何自我学习的法律系统都将盲目行事。
性能指标:静态法律为何失败
考虑以下监管响应时间与AI能力增长的对比:
| 指标 | 传统监管 | AI能力增长 |
|---|---|---|
| 通过新法律的平均时间(美国联邦) | 18–36个月 | — |
| GPT-3到GPT-4的能力跃升时间 | — | ~18个月 |
| 模型完成一次RLHF训练周期的时间 | — | 2–4周 |
| 更新监管机构指南的时间 | 6–12个月 | — |
| 新AI安全研究论文的频率(2024年) | — | 约每周50篇 |
数据要点:监管响应时间与AI能力增长之间的差距不仅巨大,而且在扩大。等到新法律通过时,AI格局已经改变。激进可选性旨在通过使监管像技术一样敏捷来缩小这一差距。
关键参与者与案例研究
几个组织已经在尝试激进可选性的元素,即使他们并未使用这个术语。
Anthropic:宪法方法
Anthropic的“Constitutional AI”是模块化、可修订治理的最明确体现。他们的宪法是一份活文档——最初包含75条原则,已根据模型行为多次更新。这是激进可选性的缩影:规则并非固定,而是随系统进化。然而,Anthropic的宪法管理的是模型行为,而非更广泛的法律生态系统。挑战在于将其扩展到社会范围的监管。
OpenAI:准备框架
OpenAI的准备框架(2023年底发布)是一种基于风险的方法,将模型分为四个级别(从低到严重),并施加相应限制。它包括一个有权暂停部署的“安全咨询小组”。这是迈向可逆性的一步——该框架明确允许回滚。然而,它仍然是OpenAI的内部机制;外部法律系统没有等效机制。
DeepMind:前沿安全框架
DeepMind的方法侧重于“规范博弈”和“奖励黑客”检测。他们在可扩展监督方面的技术工作——