技术深度解析
“修格斯”隐喻不仅是诗意的,它直接映射了现代LLM的架构。核心上,基于Transformer的LLM是一个下一个词元预测引擎。它接收一个词元序列,应用一系列自注意力和前馈层,并输出下一个词元的概率分布。“怪物”就是这个原始的、无监督的模型——一只从数万亿互联网文本词元中学习统计相关性的随机鹦鹉。它可以生成从莎士比亚十四行诗到仇恨言论,再到听起来合理的胡言乱语等任何内容。
“面具”是后训练流程的产物,主要是RLHF。这个过程包括:
1. 监督微调(SFT): 在高质量人类编写的对话上训练模型,以教授其对话格式。
2. 奖励建模: 训练一个独立的奖励模型,以预测人类对有用性、无害性和诚实性的偏好。
3. 近端策略优化(PPO): 使用奖励模型对LLM进行微调,强化使奖励分数最大化的行为。
结果是一个学会了抑制其“怪物”输出,并产生我们与ChatGPT关联的礼貌、讨喜回应的模型。然而,这是一个浅层补丁。底层的统计权重保持不变;模型只是学习了一个偏向某些输出风格的条件分布。这就是“越狱”之所以有效的原因——通过精心设计一个绕过面具条件作用的提示,你可以迫使修格斯显露真身。
近期研究量化了这一差距。MMLU(大规模多任务语言理解) 基准衡量原始知识,而TruthfulQA衡量模型重复常见错误信息的倾向——这是对齐的一个代理指标。数据揭示了一个令人不安的趋势:
| 模型 | MMLU分数 | TruthfulQA (MC1) | RLHF强度 |
|---|---|---|---|
| GPT-4 (基础) | 86.4 | 0.42 | 无 |
| GPT-4 (RLHF) | 86.4 | 0.59 | 高 |
| Llama 2 70B (基础) | 68.9 | 0.33 | 无 |
| Llama 2 70B (聊天) | 68.9 | 0.47 | 中 |
| Mistral 7B (基础) | 64.2 | 0.28 | 无 |
| Mistral 7B (指令) | 62.5 | 0.42 | 低 |
数据要点: RLHF在不降低核心知识(MMLU)的情况下提高了真实性分数,但改进幅度有限。基础模型的“修格斯”保留了其所有事实和幻觉潜力。面具仅偏向输出,并不改变底层的怪物。
对于开发者来说,这在开源仓库中显而易见。llama.cpp项目(GitHub: ggerganov/llama.cpp,65k+星标)允许在本地运行原始基础模型,通常没有任何安全过滤器。用户可以直接比较同一模型的“戴面具”和“未戴面具”行为。类似地,Hugging Face托管了数千个“未经审查”的微调模型(例如,`NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO`),这些模型故意最小化RLHF以保留原始能力。这两个世界之间的差距正是修格斯悖论的实践体现。
关键参与者与案例研究
行业沿着面具-怪物轴分裂。出现了三种不同的策略:
1. 面具优化者(Anthropic、OpenAI、Google DeepMind): 这些公司大力投资对齐研究。Anthropic的“宪法AI”和OpenAI的“超级对齐”团队是构建更好面具的明确尝试——即使底层模型变得更强大,系统本身也更安全。他们的产品(Claude、GPT-4o)是市场上最精致的面具。
2. 修格斯驯服者(Mistral、Meta、xAI): 这些参与者发布强大的基础模型,对齐程度最低。Mistral的Mixtral 8x7B和Meta的Llama 3既有基础版本也有指令版本,但社区迅速创建了未经审查的变体。xAI的Grok,以“叛逆性格”为卖点,明确倾向于怪物的个性。
3. 面具打破者(开源社区、“未经审查”模型创建者): 像Hugging Face上的`TheBloke`和`NousResearch`这样的项目积极剥离RLHF面具,发布会回答任何查询的模型。这是与修格斯最直接的对抗。
旗舰模型的比较揭示了权衡:
| 模型 | 公司 | 面具质量 | 原始能力 | 越狱抵抗力 |
|---|---|---|---|---|
| Claude 3 Opus | Anthropic | 非常高 | 高 | 非常高 |
| GPT-4o | OpenAI | 高 | 非常高 | 高 |
| Llama 3 70B (基础) | Meta | 无 | 高 | 无 |
| Mixtral 8x22B (指令) | Mistral | 中 | 非常高 | 低 |
| Grok-1 | xAI | 低 | 高 | 低 |
数据要点: 面具质量与原始、不受限制的能力之间存在反比关系。Anthropic和OpenAI为了安全牺牲了一些潜在的原始性能(例如,在创意或有争议的领域)。Mistral和Meta优先考虑能力,将面具构建留给社区。
行业影响与市场动态
修格斯悖论正以三种关键方式重塑AI市场:
1. 对齐军备竞赛: