技术深度剖析
许多流行LLM基准测试的根本缺陷在于它们依赖封闭式评估。多项选择题(MCQ),如MMLU、ARC和HellaSwag中的题目,向模型呈现一个问题及一组固定选项。模型选择一个答案。这种格式天生容易受到统计捷径的利用。研究表明,模型可以利用答案分布偏差——例如正确答案往往更长或更常出现在B选项——来获得虚高分数,而无需真正理解。2023年的一项研究显示,仅仅重新排列答案选项就能使模型分数下降超过10个百分点,揭示模型常常基于位置而非内容进行猜测。
可验证输出基准测试通过客观标准定义成功,从而避免了这一陷阱。以代码生成为例:HumanEval(164个手写编程问题)和MBPP(974个众包问题)等基准测试评估生成的代码是否通过一系列单元测试。pass@k指标衡量至少一个生成的解决方案通过所有测试的概率。这是对功能正确性的直接、明确衡量。同样,SWE-bench基准测试在真实的GitHub问题上测试模型,要求它们生成能通过项目现有测试套件的补丁。这比任何多项选择题都能提供更现实的评估。
事实检索基准测试如KILT(知识密集型语言任务)和FEVER(事实提取与验证)评估模型能否准确提取并对照知识库验证声明。这些任务有真实答案——声明要么被支持,要么被反驳,要么信息不足。这消除了人类评估的主观性。
| 基准测试类型 | 示例基准测试 | 评估指标 | 可验证性 | 易受操纵程度 |
|---|---|---|---|---|
| 多项选择 | MMLU, ARC, HellaSwag | 准确率 | 低 | 高(答案分布偏差、位置偏差) |
| 代码执行 | HumanEval, MBPP, SWE-bench | pass@k, 测试通过率 | 高 | 低(单元测试是客观的) |
| 事实检索 | KILT, FEVER, Natural Questions | F1分数、精确匹配、准确率 | 高 | 低(有真实答案) |
| 人类偏好 | Chatbot Arena, LMSYS | Elo评分、胜率 | 低 | 高(评分者偏差、流畅性优于准确性) |
数据要点: 该表格鲜明地展示了分界线。可验证性高的基准测试(代码执行、事实检索)天生难以被操纵,而可验证性低的基准测试(多项选择、人类偏好)则容易受到攻击。行业对后者的过度依赖制造了一种危险的进步幻觉。
开源工具正在涌现以解决这一问题。`lm-evaluation-harness`(GitHub: EleutherAI/lm-evaluation-harness,6000+星)提供了运行数百个基准测试的统一接口,但并未解决根本的有效性问题。更有前景的是`bigcode-evaluation-harness`(GitHub: bigcode-project/bigcode-evaluation-harness,1000+星),它专注于代码生成与执行,提供沙盒环境来运行生成的代码并验证结果。`swe-bench`仓库(GitHub: princeton-nlp/SWE-bench,2000+星)因其现实的仓库级评估而尤为引人注目。
关键参与者与案例研究
OpenAI一直是代码执行基准测试的主要倡导者。其GPT-4技术报告重点展示了HumanEval结果,显示pass@1为67.0%(相比之下GPT-3.5为48.1%)。然而,他们也承认了局限性:模型仍可能生成带有细微错误的代码,这些代码通过了单元测试但在生产中失败。这是一个关键细微差别——即使可验证的基准测试也并非完美。
Anthropic对其Claude模型采取了不同方法,强调安全与诚实。他们开发了自己的评估框架,包括用于长上下文检索的“大海捞针”测试和对抗性事实性评估。他们对可验证输出的承诺在其Claude 3模型卡中显而易见,其中包含MMLU(86.8%)的结果,也包括更稳健的基准测试如GSM8K(95.0%)用于数学推理和HumanEval(84.1%)用于代码。
Google DeepMind的Gemini模型同样专注于多模态和代码基准测试。其Gemini 1.5 Pro技术报告包含MMLU(85.9%)、HumanEval(84.1%)和Natural Questions(73.0%)的结果。然而,他们还引入了“MMMU”基准测试(大规模多学科多模态理解),试图将多模态理解与可验证答案相结合——这是朝着正确方向迈出的一步。
| 模型 | MMLU(多项选择) | HumanEval(代码) | GSM8K(数学) | Natural Questions(事实) |
|---|---|---|---|---|
| GPT-4o | 88.7 | 90.2 | 97.0 | 78.0 |
| Claude 3.5 Sonnet | 88.3 | 92.0 | 96.4 | 75.1 |
| Gemini 1.5 Pro | 85.9 | 84.1 | 91.7 | 73.0 |
| Llama 3 70B | 82.0 | 81.7 | 93.0 | 70.2 |
数据要点: