技术深度解析
这场庭审的核心是一个至今无人能回答的技术问题:如何从法律上验证一个模型的对齐性(alignment)?当前AI安全审计的最先进水平,其原始程度令人震惊。包括OpenAI在内的大多数实验室,依赖内部红队测试和自动化基准,如MMLU(大规模多任务语言理解)或用于代码生成的HumanEval。然而,这些测试衡量的是能力(capability),而非对齐性。一个模型可能在MMLU上拿到90%的分数,同时仍具备欺骗、谄媚或追求错误目标的能力。
OpenAI自身的方法,如其系统卡(system cards)所详述,涉及基于人类反馈的强化学习(RLHF)和宪法AI(constitutional AI)技术。但这些都是专有、不可复现的流程。GitHub仓库 `openai/evals`(超过15,000颗星)提供了一个评估模型的框架,但它旨在让开发者测试自己的用例,而非用于独立第三方对安全属性的验证。
Anthropic已开源了部分可解释性研究,包括用于机制可解释性的 `transformer-lens` 库(超过8,000颗星),但这仍然是一个研究工具,而非认证标准。“AI审计”领域仍处于萌芽阶段,像Credo AI和Arthur AI这样的初创公司提供治理平台,但没有任何一家拥有审计OpenAI或Google DeepMind等实验室前沿模型的权威或技术授权。
技术难点在于,“安全”并非单一指标。它涵盖了鲁棒性(robustness,抵抗对抗性攻击的能力)、对齐性(alignment,目标导向行为符合人类意图)、透明性(transparency,决策的可解释性)和可控性(controllability,关闭或覆盖模型的能力)。现有基准无法捕捉所有这些维度。下表展示了“被测量的”与“真正重要的”之间的差距:
| 安全维度 | 当前测量方法 | 关键局限 | 开源工具(GitHub) |
|---|---|---|---|
| 鲁棒性 | Adversarial GLUE, RealToxicityPrompts | 仅测试狭窄的攻击向量;缺乏真实部署压力测试 | `robustness-gym` (2,000颗星) |
| 对齐性 | MMLU, HELM, BigBench | 衡量能力而非意图;模型可以“作弊”基准测试 | `lm-evaluation-harness` (6,000颗星) |
| 透明性 | Logit lens, activation patching | 仅适用于小型开源模型;在专有100B+参数模型上失效 | `transformer-lens` (8,000颗星) |
| 可控性 | 人类评估拒绝率 | 主观、不可扩展;缺乏“安全拒绝”的标准 | 无广泛采用的工具 |
数据启示: 这张表揭示了一个残酷的现实:我们没有任何标准化、独立的方式来衡量OpenAI和马斯克在法庭上争论的那些东西。缺乏“AI安全基准套件”意味着,任何关于“安全”的法律裁决都将基于意图,而非数据。
关键角色与案例研究
OpenAI(萨姆·奥尔特曼): 这家公司经历了AI史上最戏剧性的转型。从一个拥有10亿美元资金、采用利润上限结构的非营利组织,它已演变为一个估值900亿美元的实体,旗下设有复杂的营利性子公司OpenAI Global LLC。其与微软的合作赋予后者对GPT-4及未来模型的独家访问权,这笔交易价值超过130亿美元。奥尔特曼的辩护立足于必要性:前沿模型的训练成本高达每模型5亿至10亿美元,非营利结构无法吸引如此规模的资本。他援引Anthropic为例,后者同样以非营利起步,但后来成立了公益公司(Anthropic PBC),从亚马逊和谷歌筹集了76亿美元。关键区别在于:Anthropic的章程明确允许在严格的安全条件下转为营利;而OpenAI的原始章程并未包含这一条款。
埃隆·马斯克: 这位特斯拉和xAI的CEO是一个复杂的人物。他于2015年共同创立OpenAI,最初捐赠了5000万美元,但于2018年因与特斯拉AI工作的冲突而离开。随后他于2023年创立了xAI,发布了集成到X(原Twitter)中的聊天机器人Grok。马斯克的诉讼声称,OpenAI的章程是一份具有约束力的合同,而奥尔特曼通过承诺非营利路径对他个人实施了欺诈。然而,马斯克自身的记录充满矛盾:xAI是一家营利性实体,而Grok因缺乏安全护栏而受到批评。他的法律团队提交了电子邮件和内部文件,显示奥尔特曼在公开维持非营利叙事的同时,私下讨论需要筹集“数十亿”资金。
其他参与者: 这场审判吸引了来自整个行业的“法庭之友”陈述。微软已提交支持OpenAI的文件,认为该合作加速了AGI的安全开发。Anthropic保持中立,但其CEO达里奥·阿莫代伊公开表示,非营利模式对于前沿AI而言“不可持续”。在Alphabet的营利结构下运营的Google DeepMind,对结果有着切身利益:如果法院裁定OpenAI败诉,它可能面临类似的挑战。