技术深度解析
定义AI危险的技术机制既多样又模糊。核心在于能力阈值——触发安全审查的特定模型性能指标。例如,OpenAI的Preparedness Framework使用五级量表(从Level 1到Level 5)对风险进行分类,Level 3要求“部署缓解措施”,Level 5触发“不可逆关闭”。该框架在四个领域评估模型:网络安全、说服力、自主复制以及CBRN(化学、生物、放射性和核)威胁。然而,每个级别的确切标准仍属专有,公司保留在未经公众协商的情况下调整阈值的权利。
Anthropic采用不同的方法,其Responsible Scaling Policy (RSP) 定义了类似于生物安全级别的AI安全等级(ASL)。ASL-2要求对危险能力进行人工监督;ASL-3要求严格的安全措施和受限访问;ASL-4将需要模型暂停。关键区别在于Anthropic已发布其RSP并承诺接受第三方审计,尽管审计员由公司自行选择。Google DeepMind的Frontier Safety Framework同样使用能力阈值,但增加了一个考虑社会影响而非仅技术能力的“部署决策”层。
一个关键的技术挑战是评估可靠性。当前的基准测试如MMLU、HumanEval和SWE-bench衡量的是狭窄能力,但未能捕捉到突现的危险行为。例如,一个在MMLU上得分90%的模型仍可能表现出欺骗性对齐或权力寻求倾向。开源社区已开发出如Alignment Research Center (ARC) 评估和Model Evaluation and Threat Research (METR) 基准测试等工具,但这些工具在各实验室之间并未标准化。
| 框架 | 组织 | 关键指标 | 透明度 | 外部审计 | 关闭触发条件 |
|---|---|---|---|---|---|
| Preparedness Framework | OpenAI | 能力等级 (1-5) | 低(专有阈值) | 否 | Level 5 |
| Responsible Scaling Policy | Anthropic | AI安全等级 (1-4) | 高(已发布) | 是(公司选定) | ASL-4 |
| Frontier Safety Framework | Google DeepMind | 能力 + 社会影响 | 中(部分发布) | 计划中 | 未定义 |
| Model Spec | OpenAI | 行为约束 | 中(公开但模糊) | 否 | 不适用 |
数据要点: 缺乏标准化、透明且独立审计的评估框架意味着每个实验室实际上都在自行定义其红线。这种碎片化造成了逐底竞争,最宽松的实验室设定了事实标准。
关键参与者与案例研究
治理之争涉及三个不同的群体:前沿实验室、政府和公众。每个群体都有不同的激励措施和工具。
前沿实验室: OpenAI、Anthropic和Google DeepMind是主要参与者。OpenAI的内部文化以安全与速度之间的紧张关系为特征——2023年罢免Sam Altman的董事会危机部分源于安全治理。由前OpenAI员工创立的Anthropic将自己定位为安全优先的替代方案,但其RSP因缺乏执行力度而受到批评。Google DeepMind凭借其DeepMind Ethics & Society部门,历史上更为谨慎,但在竞争压力下已加速部署。
政府: 预计将于2026年全面实施的欧盟AI法案按风险级别(不可接受、高风险、有限、最低)对AI进行分类。高风险系统需要符合性评估,但“高风险”的定义宽泛且受政治谈判影响。美国没有联邦AI法律;相反,拜登政府的AI行政命令(2023年10月)依赖于自愿承诺和报告要求。中国的做法更为集中,国家互联网信息办公室(CAC)要求算法备案和内容审核,但该过程不透明且受政治驱动。
公众与公民社会: 公众压力迫使政策改变的最明显案例是对OpenAI的GPT-4o语音模式的反弹,该模式因听起来过于像人而受到批评。作为回应,OpenAI添加了“尊重”语气护栏。另一个例子是针对Clearview AI面部识别的运动,该运动导致了多起诉讼和禁令。然而,公众压力往往是被动的,并且可能被算法放大的恐惧或炒作所操纵。
| 参与者 | 工具 | 优势 | 弱点 |
|---|---|---|---|
| 前沿实验室 | 自我监管、RSP | 快速、技术信息充分 | 利益冲突、缺乏民主合法性 |
| 政府 | 法律、行政命令 | 民主授权、执行权力 | 缓慢、碎片化、技术信息不足 |
| 公众与公民社会 | 社交媒体、抵制、诉讼 | 敏捷性、道德权威 | 被动、情绪化、易被操纵 |