技术深度解析
该研究考察了五款裁判模型:GPT-4o(OpenAI)、Claude 3.5 Sonnet(Anthropic)、Gemini 1.5 Pro(谷歌)、Llama 3 70B(Meta)和Llama 3 8B(Meta)。每款模型均被要求对三个基准测试中的模型输出进行评估:MT-Bench(多轮对话质量基准)、LLMBar(专为测试LLM裁判偏见而设计的基准)以及一个定制225样本基准,该基准引入了真实世界的评估场景,如代码生成、创意写作和事实摘要。
测试的九种去偏策略包括:
- 位置去偏:随机化候选回答的顺序
- 长度去偏:根据回答长度对分数进行归一化
- 风格去偏:训练裁判忽略风格差异
- 校准:根据历史偏见模式调整分数
- 对抗训练:在刻意偏见的样本上训练裁判
- 多提示聚合:对多种提示格式的分数进行平均
- 温度缩放:使用更高温度以减少过度自信
- 自一致性:生成多个判断并取多数投票
- 人在回路:针对边缘案例引入人类反馈
尽管策略如此丰富,结果却令人震惊。在MT-Bench上,所有模型均存在风格偏见:GPT-4o对冗长、风格华丽的回答表现出12%的偏好,即便其内容质量更差。在LLMBar上,偏见更为显著:Llama 3 70B对与其自身训练数据风格模式相匹配的回答表现出23%的偏好。定制基准测试最具揭示性——它表明,真实世界的评估场景(通常涉及领域特定语言或代码片段)将偏见放大了高达35%,远超合成基准测试。
| 基准测试 | 裁判模型 | 风格偏见 (%) | 长度偏见 (%) | 位置偏见 (%) | 总体准确率 (%) |
|---|---|---|---|---|---|
| MT-Bench | GPT-4o | 12 | 8 | 3 | 78 |
| MT-Bench | Claude 3.5 Sonnet | 10 | 6 | 2 | 81 |
| MT-Bench | Gemini 1.5 Pro | 15 | 11 | 5 | 74 |
| MT-Bench | Llama 3 70B | 18 | 14 | 7 | 70 |
| LLMBar | GPT-4o | 14 | 9 | 4 | 76 |
| LLMBar | Claude 3.5 Sonnet | 13 | 7 | 3 | 79 |
| LLMBar | Gemini 1.5 Pro | 17 | 12 | 6 | 72 |
| LLMBar | Llama 3 70B | 23 | 16 | 8 | 66 |
| Custom 225 | GPT-4o | 19 | 13 | 6 | 71 |
| Custom 225 | Claude 3.5 Sonnet | 17 | 11 | 5 | 74 |
| Custom 225 | Gemini 1.5 Pro | 22 | 15 | 8 | 67 |
| Custom 225 | Llama 3 70B | 28 | 19 | 10 | 60 |
数据要点: 更能反映真实世界评估的定制基准测试,将所有偏见类型放大了30-50%,远超合成基准测试。没有模型能达到81%以上的准确率,而Llama 3 70B尽管性能强劲,却是偏见最严重的模型。这表明模型规模本身并不能缓解偏见——事实上,更大的模型可能从其训练数据中内化了更多风格模式。
一个相关的开源项目是lmsys的LLM Judge代码库(GitHub上超过15,000颗星),它提供了将LLM用作裁判的框架。该研究的发现直接挑战了该代码库评估方法中隐含的假设,提示用户不应在未进行额外去偏的情况下依赖其默认设置。
关键参与者与案例研究
所研究的四家供应商是LLM-as-a-judge部署领域的主导力量:
- OpenAI:GPT-4o在学术和商业环境中被广泛用作裁判。OpenAI自己的Evals框架在许多基准测试中依赖GPT-4作为裁判。研究表明,GPT-4o总体偏见最小,但仍表现出显著的风格偏见(MT-Bench上为12%)。
- Anthropic:Claude 3.5 Sonnet常被宣传为更“对齐”的模型。它在某些基准测试的偏见指标上略优于GPT-4o,但在其他方面则更差,这表明对齐并不自动转化为公正的评判。
- 谷歌:Gemini 1.5 Pro显示出更高的偏见水平,这可能是由于其多模态训练数据引入了额外的风格差异。谷歌的Vertex AI平台使用Gemini进行评估,这可能会将这些偏见传播到企业工作流中。
- Meta:Llama 3 70B是这组模型中偏见最严重的,尽管它是开源的且广泛用于研究。这具有讽刺意味,因为开源模型常因其透明性而被选中,但偏见问题削弱了这一优势。
| 供应商 | 裁判模型 | 最佳准确率(基准测试) | 最差准确率(基准测试) | 平均偏见得分 |
|---|---|---|---|---|
| OpenAI | GPT-4o | 81%(MT-Bench) | 71%(Custom) | 8.3 |
| Anthropic | Claude 3.5 Sonnet | 81%(MT-Bench) | 74%(Custom) | 7.7 |
| 谷歌 | Gemini 1.5 Pro | 74%(MT-Bench) | 67%(Custom) | 10.3 |
| Meta | Llama 3 70B | 70%(MT-Bench) | 60%(Custom) | 14.0 |
数据要点: Anthropic的Claude 3.5 Sonnet平均偏见得分最低,但与GPT-4o的差距很小。谷歌和Meta明显落后。这表明,在LLM评估领域,没有一家供应商能提供真正无偏的裁判。