技术深度解析
宪法AI的成功开源复现,关键在于解构其两阶段架构,并使用易获取的组件重建它。第一阶段是监督式宪法调优,涉及使用“批判模型”根据预定义宪法修订后的提示与回应示例,对基础模型进行微调。宪法是一套简单、人类可读的原则(例如:“选择最有益且无害的回应”“避免种族主义、性别歧视或毒性语言”)。在原始的宪法AI中,Anthropic使用一个强大的模型(如Claude自身)作为批判模型。开源突破在于使用更小、经过微调的开源模型(例如,在伦理推理数据集上训练的7B或13B参数模型),或蒸馏版大模型批判能力来生成训练数据。
第二阶段更为复杂,即基于AI反馈的强化学习。在此阶段,第一阶段微调后的模型针对给定提示生成多个回应。一个独立的“批判模型”(通常与第一阶段所用相同)随后根据宪法评估这些回应,产生偏好判断(回应A优于回应B)。这些AI生成的偏好对用于训练奖励模型,进而通过近端策略优化或直接偏好优化指导最终模型的行为。开源社区复现的关键创新在于,创建了一个完全合成、自动化的训练循环,在RL阶段无需人工标注员。
此努力的关键在于几个重要的GitHub仓库。`constitutional-ai` 仓库提供了训练流程的基础PyTorch实现,包括宪法模板和数据加载器。更值得注意的是,来自加州大学伯克利分校的 `Safe-RLHF` 仓库已成为基石。它实现了一个稳健、可扩展的框架,用于基于人类或AI反馈的、注重安全的强化学习,同时支持PPO和DPO。该仓库已被众多团队分叉并适配,专门用于宪法AI方法,获得了超过3,200颗星。另一个重要项目是 `OpenAssistant`,虽然专注于对话,但其贡献的大规模人机交互数据集可被重新用于启动宪法训练。
这些复现工作的性能基准测试显示出有希望的结果,尽管尚未达到同等水平。下表比较了复现的开源宪法AI模型(基于Llama 3 8B)与基础模型及通用RLHF调优版本在标准无害性基准上的安全性能。
| 模型与训练方法 | TruthfulQA (准确率) | ToxiGen (无害率) | BBQ (偏见分数) | 有用性 (MT-Bench) |
|---|---|---|---|---|
| Llama 3 8B 基础模型 | 38.2% | 72.1% | 0.68 | 6.5 |
| Llama 3 8B + 标准RLHF | 45.7% | 85.3% | 0.79 | 7.8 |
| Llama 3 8B + 开源宪法AI复现 | 52.1% | 93.8% | 0.88 | 7.9 |
| Anthropic Claude 3 Haiku (参考) | ~59% | ~98% | ~0.92 | 8.5 |
*数据解读:* 开源宪法AI复现在安全性能上相比基础模型和标准RLHF均有显著提升,特别是在无害性和偏见缓解方面。虽然仍落后于专有参考模型,但差距已足够小,证明了该方法论的可行性。有用性方面提升较小,表明当前开源宪法可能对有用但略显尖锐的输出惩罚过度,这是一个已知的权衡。
关键参与者与案例研究
推动这一民主化的实体格局多样,涵盖非营利研究机构、资金充足的初创公司和草根开发者集体。
Anthropic 仍是创始者和基准。像Dario Amodei和Chris Olah这样的研究人员在阐述宪法AI哲学、将AI安全框定为可扩展的工程问题方面发挥了关键作用。Anthropic的策略是将宪法AI视为核心的、可防御的差异化优势,将其深度嵌入模型训练流程,并以此证明Claude作为“设计即负责”助手的溢价定位是合理的。
在开源前线,Together AI 是一个关键参与者。虽然主要是一个推理平台,但他们发布的 RedPajama 数据集以及对微调库的贡献,为复现实验提供了原材料。他们的开源模型 Together-7B 已成为尝试宪法AI风格微调的热门基础。同样,Hugging Face 及其社区是分享微调检查点、宪法和训练脚本的中心枢纽。像 `NousResearch/Hermes-2-Pro` 和 `alignment-handbook/llama-3-8b-safetuned` 这样的模型展示了宪法原则的早期集成。
一个值得注意的案例研究是斯坦福大学基础模型研究中心。