技术深度剖析
‘基准幻象’源于现代AI开发中已成为标准的一些具体技术实践。其核心问题涉及三个相互关联的机制:数据污染、针对基准的优化以及评估协议本身的局限性。
数据污染机制: 现代训练数据集,尤其是用于大语言模型的数据集,已变得如此庞大,以至于不可避免地包含了基准评估数据的片段。斯坦福大学基础模型研究中心2023年的一项分析发现,大约3-8%的常见学术基准测试题目,以原文或转述的形式出现在如The Pile、C4及各类网络抓取数据集中。这种污染通过多种渠道发生:
1. 直接包含: 论坛、GitHub仓库或教育网站上发布的基准测试问题与答案。
2. 转述污染: 为教程或解释而创建的、经过轻微改写的基准问题版本。
3. 解题模式泄露: 模型生成的基准问题解决方案,随后又出现在训练数据中。
针对基准的架构优化: 除了数据问题,模型架构和训练流程也日益专门化以追求基准性能。诸如思维链提示、少样本学习模板、针对特定基准的微调等技术,催生了一批擅长特定评估格式、却在通用推理上缺乏相应提升的模型。`lm-evaluation-harness`仓库(GitHub: EleutherAI/lm-evaluation-harness)本身已成为问题的一部分——它在提供标准化评估的同时,也使得针对特定测试格式的高度定向优化成为可能。
缩放定律的扭曲: 或许最令人担忧的是,‘基准幻象’扭曲了我们对缩放定律的理解。当模型看似随着参数和算力的增加而可预测地提升,但这些提升却集中在基准性能而非通用能力上时,就会对当前的缩放路径产生虚假的信心。Anthropic研究团队近期的研究表明,虽然缩放持续提升基准测试成绩,但在真正新颖的任务(那些需要以意外方式组合技能的任务)上的改进速率,早已进入平台期,远早于基准分数所暗示的时间点。
| 评估类型 | 算力增加10倍的典型提升 | 泛化能力提升 | 数据污染风险 |
|---------------------|------------------------------------------|--------------------------------|-----------------------------|
| 标准基准测试(MMLU等) | 15-25% | 低 | 高(5-10%) |
| 动态/自适应基准测试 | 5-10% | 中等 | 低(<1%) |
| 真实世界部署任务 | 2-8% | 高 | 极低 |
| 新颖技能组合 | 0-5% | 极高 | 无 |
数据启示: 上表揭示了一个关键的逆相关关系:最抵抗数据污染的评估方法,从算力缩放中获得的改进最小。这表明,AI领域许多备受赞誉的‘进步’,衡量的可能更多是对已知模式的优化,而非新能力的开发。
技术对策: 目前正涌现出几种有前景的方法来对抗‘基准幻象’。像`DynaBench`(GitHub: facebookresearch/dynabench)这样的动态基准框架,通过人在回路的对抗性示例持续演进,使得静态优化无法实现。`Big-Bench`协作项目(GitHub: google/BIG-bench)专注于那些被认为超越当前能力的任务,尽管长期来看它同样面临污染风险。或许最有希望的是那些测量能力涌现曲线的评估方法——追踪性能如何随着任务难度或新颖性的增加而提升,而非关注固定任务上的绝对分数。
关键参与者与案例研究
‘基准幻象’影响着整个AI生态中的组织,尽管它们的应对方式和脆弱性存在显著差异。
OpenAI的GPT系列: 从GPT-3到GPT-4的演进,是基准优化的教科书式案例。虽然每次迭代都在标准基准测试上显示出巨大进步(GPT-4在MMLU上达到86.4%,而GPT-3为43.9%),但真实世界的部署揭示了更为微妙的收益。主要部署合作伙伴的内部研究表明,对于需要在不熟悉领域进行推理的真正新颖的企业应用,性能提升更接近30-40%,而非学术基准所暗示的近一倍提升。OpenAI已开始通过更严格的内部评估(如`OpenAI Evals`框架)来解决这一问题,但可发布的基准结果与真实能力之间的张力依然存在。
Anthropic的宪法AI路径: Anthropic或许是采取了最系统化方法来对抗基准幻象的公司之一。其‘宪法AI’框架旨在通过原则性监督和基于人类反馈的强化学习来引导模型行为,而不仅仅是优化特定测试分数。这种方法强调在广泛、定义模糊的任务上发展稳健的推理和价值观对齐,而非追求排行榜上的狭窄胜利。然而,即使如此,Anthropic的模型仍需要在公开基准上进行评估以进行比较,这使其同样面临幻象效应的风险。他们的应对策略是开发内部评估套件,重点关注模型在对抗性提示、新颖场景和长尾分布问题上的表现,试图更接近地模拟真实世界的复杂性。