技术深度解析
OpenAI提案试图解决的核心技术挑战,是AI发展速度与监管响应迟缓之间的根本性不对称。当前各国框架——如欧盟AI法案、中国生成式AI法规以及美国AI行政令——各自为政,造成了一个碎片化格局:在一个司法管辖区训练的模型可以几乎不受监督地在全球部署。
在工程层面,一个统一的治理机构需要建立共享的模型评估技术标准。这包括标准化的红队测试协议、对抗性鲁棒性基准,以及可跨不同架构应用的可解释性指标。例如,当前模型评估的最先进技术依赖于不同的基准,如MMLU(大规模多任务语言理解)、HellaSwag和HumanEval,每种都有各自的评分方法。一个全球机构可以强制推行一套通用评估套件,类似于国际标准化组织(ISO)为各行业制定技术标准。
一个具体的技术机制是联邦审计系统。模型在部署到任何成员国之前,可能需要通过一套标准化的安全测试。这将涉及创建一个共享的对抗性提示、越狱尝试和偏见检测数据集库。这里的技术挑战巨大:模型更新频繁(有时每天更新),跨司法管辖区维护实时审计追踪需要复杂的版本控制和密码学证明。
在开源方面,像EleutherAI的lm-evaluation-harness(GitHub星标超过5000)这样的代码库已经为标准化模型评估提供了框架。全球治理机构可以在此基础上构建,创建一个模型开发者在发布前必须运行的认证评估管道。同样,MLCommons AI Safety工作组一直在开发AI安全基准,但其自愿性质限制了影响力。一个强制性的全球框架将把这些工具从可选的最佳实践转变为监管要求。
数据表:当前AI安全基准碎片化状况
| 基准 | 关注领域 | 采用者 | 评估方法 | 全球采用率 |
|---|---|---|---|---|
| MMLU | 知识与推理 | OpenAI, Google, Anthropic | 多项选择问答 | 约80%的前沿实验室 |
| HellaSwag | 常识推理 | Meta, EleutherAI | 句子补全 | 约60% |
| HumanEval | 代码生成 | OpenAI, DeepMind | 功能正确性 | 约50% |
| TruthfulQA | 事实性 | Anthropic, Google | 多项选择+生成 | 约40% |
| REALTOXICITYPROMPTS | 毒性 | 多家机构 | 提示-响应分析 | 约30% |
数据要点: 缺乏统一的基准套件意味着模型之间的安全比较往往是苹果对橙子。全球治理机构可以强制推行单一评估框架,减少模糊性,但可能抑制评估方法论的创新。
关键参与者与案例研究
该提案最引人注目的特点是对中国的明确纳入。这是OpenAI的战略考量,反映了技术和地缘政治现实。在技术方面,中国AI实验室——包括百度(ERNIE Bot)、阿里巴巴(Qwen)和字节跳动(Doubao)——已展现出竞争性能力。例如,开源模型Qwen-72B在多个基准上可与GPT-3.5媲美。将中国排除在治理之外将创造一个平行生态系统,在该框架之外开发的模型可以不受监督地部署,从而破坏整个事业。
OpenAI自身在安全治理方面的记录具有启发性。该公司于2023年建立了Preparedness Framework,其中包括一个安全咨询小组和评估灾难性风险的流程。然而,这一内部结构因缺乏独立监督而受到批评。全球机构将外部化这一功能,可能要求OpenAI将其模型提交给第三方审计——这与其当前自我监管的方式相比是一个重大转变。
其他关键参与者包括Anthropic,该公司一直呼吁国际协调。Anthropic的CEO Dario Amodei主张对AI开发采用“许可”模式,类似于核能的监管方式。DeepMind(现为Google的一部分)也呼吁制定全球标准,但其母公司的商业利益造成了潜在冲突。在中国方面,百度的李彦宏公开支持AI安全方面的国际合作,而中国政府则提出了自己的全球AI治理倡议,强调国家对模型开发的主权。
数据表:前沿AI实验室治理立场
| 公司 | 对全球治理的公开立场 | 内部安全结构 | 主要关切 |
|---|---|---|---|
| OpenAI | 支持强制性的中美共同参与的全球机构 | Preparedness Framework(2023年建立) | 独立监督缺失 |
| Anthropic | 支持国际协调与许可模式 | 内部安全团队 | 监管逐底竞争 |
| DeepMind | 支持全球标准 | 内部伦理委员会 | 商业利益冲突 |
| 百度 | 支持国际合作 | 内部安全审查 | 国家主权 |
| 阿里巴巴 | 未明确表态 | 内部安全协议 | 技术竞争力 |