谁定义对错？AI核心的道德真空

大语言模型的快速部署制造了一个前所未有的道德真空。当行业为上下文长度、推理能力和多模态突破而欢呼时，一个根本性问题却无人问津：谁将这些价值观编程进系统？AINews认为，答案并非民主协商，而是商业优化——用户留存、法律风险规避和广告收入。政府、教育者和文化领袖——传统的“大人”——已被技术迭代的速度甩在身后。结果是一场静默的政变：价值观不再是社会共识的产物，而是训练数据中的统计相关性。本文剖析了这一转变背后的机制，审视了关键参与者及其隐含的伦理框架，并警告称，我们正将道德权威拱手让给那些没有责任、没有透明度、没有民主授权的系统。

技术深度剖析

价值对齐问题的核心不在于Transformer架构，而在于训练流程。现代LLM建立在三个阶段之上：在海量网络语料上进行预训练、在精选数据集上进行监督微调（SFT）、以及基于人类反馈的强化学习（RLHF）。每个阶段都是价值注入——或缺失——的载体。

预训练：统计道德的陷阱
网络并非中立的存储库。它过度代表了英语、西方、男性和富裕阶层的视角。Common Crawl，大多数开源模型的骨干，包含46%的英文内容，并严重偏向于Reddit和Wikipedia等美国论坛。当模型学习预测下一个token时，它会内化某些观点的统计普遍性。Anthropic 2024年的一项研究发现，在未经过滤的网络数据上训练的模型在社会问题上表现出“默认自由主义”——并非出于有意设计，而是因为自由主义观点在网络讨论中统计上更频繁。这不是对齐；这是偶然的灌输。

RLHF：商业方向盘
RLHF是价值观变得明确的地方——但这是谁的价值观？“人类反馈”通常由肯尼亚、菲律宾或印度的承包商提供，按标签计酬，在严格的时间压力下工作。他们的判断反映了人类的一小部分：年轻、懂英语、经济上绝望。OpenAI、Google和Anthropic都使用第三方标注公司；没有一家披露其评分者的人口统计细分。结果是一种同质化的“全球平均”道德观，无法完全取悦任何人，但足以避免引发头条新闻的冒犯。

Constitutional AI：前进了一步，但由谁定义？
Anthropic的Constitutional AI方法试图明确地编纂价值观。他们的宪法借鉴了《联合国人权宣言》、Apple的服务条款和内部指南。但由旧金山一家营利性公司撰写的宪法不是社会契约。它是产品规格。当Anthropic的Claude拒绝编写一个道德模糊结局的故事时，它是在执行公司对减少伤害的解释——而非民主共识。

| 训练阶段 | 价值来源 | 关键局限 | 示例偏见 |
|---|---|---|---|
| 预训练 | 网络语料统计 | 过度代表西方、男性、富裕声音 | 社会问题上的默认自由主义 |
| SFT | 精选人类演示 | 评分者人口统计偏向年轻、懂英语 | 不均匀地回避争议话题 |
| RLHF | 承包商反馈 | 时间压力、文化同质性 | 过度审查非西方观点 |
| Constitutional AI | 明确规则（UN、Apple ToS） | 企业作者身份，无民主输入 | 拒绝道德模糊的叙事 |

数据要点： 模型训练的每个阶段都嵌入了价值观，但没有任何阶段涉及公共协商。“对齐”问题不是技术问题——它是伪装成工程挑战的治理失败。

关键参与者与案例研究

OpenAI：务实优化者
OpenAI的GPT-4o和o1模型针对用户满意度和安全合规性进行了优化。其使用政策禁止“仇恨言论”和“骚扰”，但执行不一致。在内部测试中，GPT-4o拒绝生成一个关于政客腐败的虚构故事，却愉快地写了一首赞美科技CEO的诗。这种模式揭示了一种保护强大机构的偏见——这是风险规避型企业治理的自然结果。OpenAI最近从非营利向封顶利润结构的转变只会加剧这一点：安全决策现在通过以留存和收入衡量的产品团队来执行。

Anthropic：有原则但封闭的设计者
Anthropic的Claude模型是价值工程化最明确的。其“有帮助、诚实、无害”（HHH）框架是伦理设计的真诚尝试。然而，Claude的拒绝模式揭示了一种特定的道德世界观：它不会扮演反派角色，拒绝撰写情色内容，并拒绝模拟不道德行为，即使在虚构情境中也是如此。这是一个连贯的伦理体系——但它是由旧金山一小群研究人员设计的。当Claude告诉用户“我无法帮助处理这个请求”时，它是在行使没有民主授权的道德权威。

Google DeepMind：官僚仲裁者
Gemini的安全系统是最不透明的。Google依赖自动分类器和人工审核的组合，但标准是内部的，且会随时更改而无需通知。2024年初，Gemini被发现过度纠正种族多样性，生成了历史不准确的图像。反弹迫使公开道歉，但底层治理结构——产品团队在公关压力下做出价值判断——仍未改变。

| 公司 | 模型 | 价值框架 | 关键争议 | 治理模式 |
|---|---|---|---|---|
| OpenAI | GPT-4o | RLHF + 使用政策 | 拒绝反企业内容 | 产品团队驱动的优化 |
| Anthropic | Claude | HHH + Constitutional AI | 拒绝道德模糊叙事 | 内部研究人员设计的伦理 |
| Google DeepMind | Gemini | 自动分类器 + 人工审核 | 历史图像过度纠正 | 不透明的内部标准 |

时间归档

延伸阅读

常见问题

这次模型发布“Who Defines Right and Wrong? The Moral Vacuum at the Heart of AI”的核心内容是什么？

The rapid deployment of large language models has created an unprecedented moral vacuum. While the industry celebrates breakthroughs in context length, reasoning, and multimodality…

从“who decides AI values”看，这个模型发布为什么重要？

The core of the value-alignment problem lies not in the architecture of transformers but in the training pipeline. Modern LLMs are built on three stages: pretraining on massive web corpora, supervised fine-tuning (SFT) o…

围绕“LLM ethical training data bias”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。