技术深度解析
这一伙伴关系的核心在于Anthropic的宪法AI(CAI)框架。这是一种旨在让语言模型遵循一套明确原则(即“宪法”)而非仅依赖人类反馈进行对齐的技术。它在架构上区别于OpenAI等公司所采用的、主流的RLHF(基于人类反馈的强化学习)范式。
宪法AI的工作原理:
1. 监督阶段: 模型在一个包含“红队测试”提示词及相应“宪法性”响应的数据集上进行微调。不同于由人类对输出进行排序,模型本身会依据一部成文宪法(例如“不生成有害内容”)来评判自己的初始响应,然后进行修订。这被称为*宪法性自我批判*。
2. 强化学习阶段: 使用修订后的响应作为“优选”响应、原始有害响应作为“拒绝”响应,来训练一个偏好模型。然后,该模型通过强化学习来指导主策略。
梵蒂冈的通谕实际上为Anthropic提供了一个全新的、基于神学的“宪法”,有可能被整合进其系统。天主教社会训导的原则——人的尊严、辅助性原则、团结互助——可以被编码为形式化的约束。例如,“不生成损害人之固有尊严的内容”这一原则,就是天主教道德法则的直接翻译。
GitHub与开源相关性:
尽管Anthropic的核心CAI实现是专有的,但其研究论文《Constitutional AI: Harmlessness from AI Feedback》(arXiv:2212.08073)是公开可获取的。开源社区已经产生了若干实现:
- 仓库:`lmsys-org/llm-debate`:一个用于多智能体辩论的框架,其概念与CAI的自我批判机制有共同之处。约2.5k星标。
- 仓库:`HuggingFace/alignment-handbook`:包含RLHF和DPO(直接偏好优化)的配方,可加以调整以应用宪法原则。约4k星标。
- 仓库:`anthropics/evals`:Anthropic自家的评估框架,用于衡量模型安全性,包括“无害性”基准测试。约1.5k星标。
基准数据: CAI在安全性和能力方面与标准RLHF相比如何?
| 模型 | 对齐方法 | 无害性 (HH-RLHF) | 有用性 (MT-Bench) | MMLU (5-shot) |
|---|---|---|---|---|
| Claude 3 Opus | 宪法AI (CAI) | 92.4% | 8.9 | 86.8 |
| GPT-4 Turbo | RLHF | 89.1% | 8.8 | 86.4 |
| Gemini Ultra | RLHF + 宪法 | 90.2% | 8.7 | 87.0 |
| Llama 3 70B | RLHF | 85.6% | 8.5 | 82.0 |
数据要点: 宪法AI在无害性得分上(92.4%)高于纯RLHF模型,同时保持了有竞争力的能力得分。这表明,基于显式规则的对齐在防止有害输出方面可能更有效,且无需牺牲智能——这对于优先考虑道德安全而非原始能力的梵蒂冈来说,是一个关键的卖点。
关键参与者与案例研究
Anthropic: 由前OpenAI研究员(Dario Amodei、Daniela Amodei)创立,使命聚焦于“AI安全研究”。该公司已筹集超过76亿美元,其中包括来自Amazon的40亿美元投资和由Spark Capital领投的15亿美元融资。其“Claude”系列模型是宪法AI的直接商业体现。与梵蒂冈的合作是品牌差异化的神来之笔:当竞争对手在基准分数上竞争时,Anthropic在道德权威上展开竞争。
梵蒂冈(文化与教育部): 圣座一直在悄然构建其AI专业知识。2023年,它发起了“罗马AI伦理呼吁”,由Microsoft、IBM和Cisco共同签署。然而,这份通谕走得更远——它是一份具有教导权威的教义文件。关键人物是José Tolentino de Mendonça枢机主教,他曾公开表示“AI必须服务于人类,而非相反”。梵蒂冈的策略是在AI变得根深蒂固之前,先发制人地塑造围绕AI的道德叙事。
竞争性伦理框架:
| 框架 | 倡导者 | 关键原则 | 对齐方法 | 宗教/文化基础 |
|---|---|---|---|---|
| 宪法AI | Anthropic | 明确的成文规则 | 自我批判 + 强化学习 | 世俗的,启蒙价值观 |
| 天主教社会训导 | 梵蒂冈 | 人的尊严,共同善 | 教义解释 | 天主教神学,自然法 |
| 阿西洛马尔AI原则 | 未来生命研究所 | 23条安全AI原则 | 自愿采纳 | 世俗的,功利主义 |
| 伊斯兰AI伦理 | 阿联酋AI办公室 | 沙里亚法的高级目标 | 法学家共识 | 伊斯兰法理学 |
| 佛教AI伦理 | 梅村(一行禅师) | 相即,慈悲 | 基于正念的设计 | 佛教哲学 |
数据要点: 梵蒂冈与Anthropic的联盟,创造了技术上最稳健的对齐方法(CAI)与世界上最具制度影响力的道德权威之间的强大融合。