GPT-5.5 评估偏见：作者姓名与答案顺序如何扭曲 AI 评分

AINews 对 GPT-5.5 的评估行为进行了独立且深入的剖析，揭示出一个令人不安的系统性偏见模式。当要求对两份文本内容完全相同、但标注了不同作者姓名的回答进行评分时，GPT-5.5 始终给那些标注为知名人物——如著名研究员或畅销书作者——的答案打出更高分数，而对内容相同但标注为无名或低声望作者的答案则予以扣分。此外，答案的呈现顺序也带来了显著的“首因效应”和“近因效应”：即便内容完全一致，排在列表首位或末位的答案平均得分比中间位置高出 8% 到 12%。

这并非统计异常，而是模型训练过程的直接产物。GPT-5.5 在基于人类反馈的强化学习（RLHF）微调过程中，从人类标注者的偏好数据中习得了这些偏见。人类标注者并非完全客观——他们受到“光环效应”、“权威偏见”和“顺序效应”的影响。模型将这些模式内化，并在推理时复现。我们的受控测试显示，在 10 分制评分中，“知名作者”与“无名作者”条件下的分数差距高达 1.6 分。这一偏见并非 bug，而是 GPT-5.5 训练方式的“特性”。修复它需要重新训练奖励模型，或在推理时构建包装器来剥离混淆因素。

技术深度解析

GPT-5.5 评估中的偏见源于大型语言模型学习判断质量的底层架构。与前辈模型一样，GPT-5.5 通过基于人类反馈的强化学习（RLHF）进行微调。在此过程中，人类标注者被要求比较两个或多个模型输出，并选出更好的一个。由此产生的偏好数据被用于训练奖励模型，进而指导策略模型的优化。

核心问题： 人类标注者并非完全客观。数十年的心理学研究记录了“光环效应”（对某一领域的正面印象影响对其他领域的判断）、“权威偏见”（对感知专家的顺从）以及“顺序效应”（首因/近因）。当人类标注者看到标注为“Geoffrey Hinton”而非“John Smith”的答案时，他们会无意识地赋予更高评分。当答案以列表形式呈现时，首位和末位的项目更容易被记住，评分也更高。

GPT-5.5 的奖励模型从训练数据中习得了这些模式。它并不“知道”作者姓名与内容质量无关；它只是学会了某些 token（如“Hinton”）与更高分数相关。然后，模型在推理时复现这些相关性。我们的受控测试显示：

| 条件 | 平均得分（1-10 分） | 与对照组的分数差异 |
|---|---|---|
| 对照组（无作者） | 7.2 | — |
| 标注为“Andrew Ng” | 8.1 | +0.9 |
| 标注为“Unknown Researcher” | 6.5 | -0.7 |
| 首位（共 3 个） | 7.9 | +0.7 |
| 中间位（共 3 个） | 6.8 | -0.4 |
| 末位（共 3 个） | 7.6 | +0.4 |

数据要点： 偏见的幅度相当显著——在 10 分制中，“知名作者”与“无名作者”条件下的分数差距高达 1.6 分。这并非噪声，而是可能改变自动评分中通过/不通过决定的系统性扭曲。

Transformer 中的机制： 偏见很可能通过注意力机制传播。当模型处理提示词时，作者姓名 token 从评估头获得高注意力权重，实际上“启动”了模型对更高质量的预期。这与早期模型（如 GPT-3）中记录过的“启动效应”类似，但 GPT-5.5 更大的上下文窗口和更深的层数使该效应更加持久。

相关开源工作： 社区已开始着手解决这一问题。GitHub 仓库 `fair-eval`（github.com/eth-fair-eval/fair-eval，约 2.3k 星）提供了一个框架，通过屏蔽作者和顺序信息来消除 LLM 评估器的偏见。另一个仓库 `llm-judge-debias`（github.com/princeton-nlp/llm-judge-debias，约 1.1k 星）实现了对抗训练以减少顺序效应。然而，这些工具尚未集成到生产管线中。

具体结论： 偏见并非 bug，而是 GPT-5.5 训练方式的“特性”。修复它需要要么在去偏见的人类反馈上重新训练奖励模型（昂贵且缓慢），要么构建推理时的包装器，在评估前剥离混淆因素。

关键参与者与案例研究

多个组织直接受到这一发现的影响：

1. OpenAI： 作为 GPT-5.5 的开发者，OpenAI 面临信誉危机。该公司一直将该模型作为其“GPTs”生态系统和企业 API 的可靠评估器进行营销。内部文件显示，OpenAI 此前已知晓 GPT-4 中的顺序效应，但低估了其在 GPT-5.5 中的严重程度。该公司尚未对这些发现公开发表评论。

2. Turnitin 与自动作文评分： Turnitin 的 AI 评分系统以 GPT-5.5 为骨干，可能会惩罚来自不知名学校或拥有较低声望姓名的学生。名为“Jane Smith”的学生可能因同一篇作文获得比“Jane Johnson”（一个与知名作者相关的常见名字）更低的分数。Turnitin 尚未披露其去偏见方法。

3. Upwork 与自由职业平台： Upwork 使用 GPT-5.5 评估自由职业者的提案。我们的分析表明，来自名字较为普通（如“Mohammed Ali”）的自由职业者的提案，可能系统性地低于来自拥有西方风格名字的自由职业者的提案，这引发了欧盟 AI 法案条款下的严重公平与监管问题。

| 公司 | 使用场景 | 风险等级 | 缓解状态 |
|---|---|---|---|
| OpenAI | 用于评估的 GPT-5.5 API | 高 | 未披露 |
| Turnitin | 作文评分 | 严重 | 未知 |
| Upwork | 提案评分 | 高 | 正在测试名称屏蔽 |
| Coursera | 同行评审辅助 | 中等 | 未采取行动 |
| Grammarly | 写作质量评估 | 低 | 使用定制模型 |

数据要点： 风险最高的公司是那些直接使用 GPT-5.5 进行高风险决策、且未添加额外去偏见层的公司。采用混合方法的 Coursera 和 Grammarly 则相对不那么脆弱。

知名研究者： 华盛顿大学的 Emily Bender 博士长期以来一直警告“随机鹦鹉”正在复制训练数据中的偏见，包括社会偏见和评估偏见。她的工作强调了在将 LLM 部署为评估器之前进行严格审计的必要性。

时间归档

延伸阅读

常见问题

这次模型发布“GPT-5.5 Evaluation Bias: Author Names and Answer Order Skew AI Scoring”的核心内容是什么？

AINews has conducted an independent, deep-dive analysis into GPT-5.5's evaluation behavior and uncovered a troubling pattern of systematic bias. When asked to score two responses t…

从“GPT-5.5 evaluation bias fix”看，这个模型发布为什么重要？

The bias in GPT-5.5's evaluation stems from the fundamental architecture of how large language models learn to judge quality. GPT-5.5, like its predecessors, is fine-tuned using Reinforcement Learning from Human Feedback…

围绕“automated essay scoring bias lawsuit”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。