技术深度剖析
价值对齐问题的核心不在于Transformer架构,而在于训练流程。现代LLM建立在三个阶段之上:在海量网络语料上进行预训练、在精选数据集上进行监督微调(SFT)、以及基于人类反馈的强化学习(RLHF)。每个阶段都是价值注入——或缺失——的载体。
预训练:统计道德的陷阱
网络并非中立的存储库。它过度代表了英语、西方、男性和富裕阶层的视角。Common Crawl,大多数开源模型的骨干,包含46%的英文内容,并严重偏向于Reddit和Wikipedia等美国论坛。当模型学习预测下一个token时,它会内化某些观点的统计普遍性。Anthropic 2024年的一项研究发现,在未经过滤的网络数据上训练的模型在社会问题上表现出“默认自由主义”——并非出于有意设计,而是因为自由主义观点在网络讨论中统计上更频繁。这不是对齐;这是偶然的灌输。
RLHF:商业方向盘
RLHF是价值观变得明确的地方——但这是谁的价值观?“人类反馈”通常由肯尼亚、菲律宾或印度的承包商提供,按标签计酬,在严格的时间压力下工作。他们的判断反映了人类的一小部分:年轻、懂英语、经济上绝望。OpenAI、Google和Anthropic都使用第三方标注公司;没有一家披露其评分者的人口统计细分。结果是一种同质化的“全球平均”道德观,无法完全取悦任何人,但足以避免引发头条新闻的冒犯。
Constitutional AI:前进了一步,但由谁定义?
Anthropic的Constitutional AI方法试图明确地编纂价值观。他们的宪法借鉴了《联合国人权宣言》、Apple的服务条款和内部指南。但由旧金山一家营利性公司撰写的宪法不是社会契约。它是产品规格。当Anthropic的Claude拒绝编写一个道德模糊结局的故事时,它是在执行公司对减少伤害的解释——而非民主共识。
| 训练阶段 | 价值来源 | 关键局限 | 示例偏见 |
|---|---|---|---|
| 预训练 | 网络语料统计 | 过度代表西方、男性、富裕声音 | 社会问题上的默认自由主义 |
| SFT | 精选人类演示 | 评分者人口统计偏向年轻、懂英语 | 不均匀地回避争议话题 |
| RLHF | 承包商反馈 | 时间压力、文化同质性 | 过度审查非西方观点 |
| Constitutional AI | 明确规则(UN、Apple ToS) | 企业作者身份,无民主输入 | 拒绝道德模糊的叙事 |
数据要点: 模型训练的每个阶段都嵌入了价值观,但没有任何阶段涉及公共协商。“对齐”问题不是技术问题——它是伪装成工程挑战的治理失败。
关键参与者与案例研究
OpenAI:务实优化者
OpenAI的GPT-4o和o1模型针对用户满意度和安全合规性进行了优化。其使用政策禁止“仇恨言论”和“骚扰”,但执行不一致。在内部测试中,GPT-4o拒绝生成一个关于政客腐败的虚构故事,却愉快地写了一首赞美科技CEO的诗。这种模式揭示了一种保护强大机构的偏见——这是风险规避型企业治理的自然结果。OpenAI最近从非营利向封顶利润结构的转变只会加剧这一点:安全决策现在通过以留存和收入衡量的产品团队来执行。
Anthropic:有原则但封闭的设计者
Anthropic的Claude模型是价值工程化最明确的。其“有帮助、诚实、无害”(HHH)框架是伦理设计的真诚尝试。然而,Claude的拒绝模式揭示了一种特定的道德世界观:它不会扮演反派角色,拒绝撰写情色内容,并拒绝模拟不道德行为,即使在虚构情境中也是如此。这是一个连贯的伦理体系——但它是由旧金山一小群研究人员设计的。当Claude告诉用户“我无法帮助处理这个请求”时,它是在行使没有民主授权的道德权威。
Google DeepMind:官僚仲裁者
Gemini的安全系统是最不透明的。Google依赖自动分类器和人工审核的组合,但标准是内部的,且会随时更改而无需通知。2024年初,Gemini被发现过度纠正种族多样性,生成了历史不准确的图像。反弹迫使公开道歉,但底层治理结构——产品团队在公关压力下做出价值判断——仍未改变。
| 公司 | 模型 | 价值框架 | 关键争议 | 治理模式 |
|---|---|---|---|---|
| OpenAI | GPT-4o | RLHF + 使用政策 | 拒绝反企业内容 | 产品团队驱动的优化 |
| Anthropic | Claude | HHH + Constitutional AI | 拒绝道德模糊叙事 | 内部研究人员设计的伦理 |
| Google DeepMind | Gemini | 自动分类器 + 人工审核 | 历史图像过度纠正 | 不透明的内部标准 |