LongBench v2:衡量AI长文本能力的全新黄金标准

GitHub May 2026
⭐ 1163
来源:GitHublong-context AILLM evaluation归档:May 2026
清华大学THUDM团队推出的LongBench v2,作为长文本基准测试的最新迭代,已被ACL 2025接收。新版引入更困难、更现实的任务,揭示了模型宣称的上下文窗口与实际性能之间的差距,为行业树立了新标杆。

清华大学THUDM团队发布了LongBench v2,这是其广泛采用的长文本理解与生成基准测试的重大更新,两个版本分别被ACL 2025和ACL 2024接收。最初的LongBench于2023年推出,迅速成为评估大语言模型处理长文档能力的实际标准,涵盖多种任务、语言和长度级别。LongBench v2大幅提高了门槛,引入了更具挑战性的任务,要求真正的长程推理——而不仅仅是检索单一事实。该基准测试现在包含合成和真实场景,测试模型在数十万token范围内综合信息的能力。这至关重要,因为许多模型宣称的上下文窗口与实际性能存在差距。LongBench v2通过多跳推理、跨语言任务和合成噪声等设计,迫使模型展示真正的长文本理解能力,而非简单的信息检索。

技术深度解析

LongBench v2并非其前身的简单放大版;它代表了对如何评估长文本能力的根本性重新思考。最初的LongBench涵盖六大类21项任务:单文档问答、多文档问答、摘要、少样本学习、合成任务和代码补全。它混合使用英文和中文数据,长度从5K到15K token不等。虽然有用,但这种设置存在一个关键缺陷:许多任务可以通过简单检索解决(例如,在干草堆里找一根针)。

LongBench v2通过引入长上下文上的多跳推理来解决这一问题。例如,一个任务可能要求模型阅读一部10万token的小说,然后回答一个需要综合三个不同章节信息的问题,每个章节之间相隔数万token。这比单一事实检索要困难得多。该基准测试还包括:

- 合成“干扰”任务:插入无关但看似合理的信息,测试模型能否忽略噪声。
- 跨语言长文本:要求理解一种语言的文档并用另一种语言回答,同时测试上下文长度和语言迁移能力。
- 多轮长对话:模拟长聊天历史(例如50轮以上),测试模型回忆并使用早期轮次信息的能力。

LongBench v2背后的工程方法也值得关注。THUDM团队开发了一种动态长度采样方法,确保模型在多个长度区间(例如32K、64K、128K、256K)而非单一固定长度上接受测试。这可以生成精细的性能曲线,精确揭示模型性能开始下降的位置。

基准测试对比:LongBench v2 vs. 其他长文本基准测试

| 基准测试 | 最大长度 | 任务类型 | 多跳推理? | 跨语言? | 合成噪声? |
|---|---|---|---|---|---|
| LongBench (v1) | 15K tokens | 21项任务(问答、摘要、代码) | 有限 | 是(中/英) | 否 |
| LongBench v2 | 256K+ tokens | 30+项任务(多跳、干扰) | 是 | 是(中/英/法/西) | 是 |
| RULER (2024) | 128K tokens | 合成针/干草堆变体 | 否 | 否 | 是 |
| L-Eval | 32K tokens | 18项任务(问答、摘要) | 否 | 否 | 否 |
| HELMET | 100K tokens | 7项任务(问答、检索) | 有限 | 否 | 否 |

数据要点: LongBench v2是唯一结合了多跳推理、跨语言任务、合成噪声和动态长度采样的基准测试。这使其比仅测试简单检索的RULER或上限为32K token的L-Eval等替代方案更难、更现实。合成噪声的引入尤其重要,因为真实世界的文档总是包含无关信息。

对于开发者而言,LongBench评估套件以开源Python包的形式在GitHub上提供。它与vLLM和Hugging Face Transformers等流行模型服务框架集成,方便在自定义模型上运行评估。该仓库还包括一个排行榜,已成为社区的关键参考点。

关键参与者与案例研究

THUDM团队由唐杰教授和资深研究员吴志勇领导,在开源AI领域拥有良好记录。他们也是ChatGLM系列模型的创建者,这些模型在中国和全球被广泛采用。LongBench v2的开发是他们长文本模型工作的自然延伸;他们需要一个严格的基准测试来验证自己模型的能力。

竞争基准测试及其赞助方:

| 基准测试 | 开发者/赞助方 | 重点 | 优势 | 劣势 |
|---|---|---|---|---|
| LongBench v2 | THUDM(清华大学) | 现实多跳推理 | 最难任务、跨语言、噪声 | 社区规模小于HELMET |
| RULER | Google Research | 合成检索 | 简单、可复现 | 太简单;不测试推理 |
| HELMET | Stanford CRFM | 长文本问答 | 适合检索任务 | 任务多样性有限 |
| L-Eval | 上海AI实验室 | 摘要与问答 | 干净数据集 | 最大长度短(32K) |
| SCROLLS | Allen AI | 长文档问答 | 真实文档 | 过时;最大10K tokens |

数据要点: 当前格局碎片化,但LongBench v2是唯一直接挑战模型超越单一事实检索的基准测试。Google的RULER虽然流行,但越来越被认为不足,因为模型无需展示真正的长文本理解即可获得高分。这导致一种情况:模型可能在RULER上获得95%的分数,但在LongBench v2的多跳任务上失败。

案例研究:OpenAI的GPT-4 Turbo vs. LongBench v2

当GPT-4 Turbo以128K上下文窗口发布时,在LongBench v1上的初步测试显示出强劲性能。然而,LongBench v2上的早期结果(由研究人员在社交媒体上分享)显示准确性显著下降。

更多来自 GitHub

开源漫画翻译工具崛起:五引擎AI挑战专业服务,GitHub星数飙升hgmzhn/manga-translator-ui 项目基于 manga-image-translator 核心库,在 GitHub 上迅速走红,已获得超过 1600 颗星,日均新增 252 颗。该工具提供一键安装、开箱即用的体验,可自动TokenCost:开源库如何撕开大模型定价的“黑箱”TokenCost 是一个托管在 GitHub 上 agentops-ai 组织下的开源 Python 库,通过解决一个简单却令人头疼的问题——在调用 LLM API 之前精确知道其成本——已累积近 2000 颗星。该库维护着一张动态更新的TokenCost分支:每位LLM开发者必备的隐藏成本节省工具TokenCost,源自AgentOps-AI/tokencost的一个分支,是一款轻量级Python库,专为估算LLM API调用成本而设计。它通过将token计数映射到已知定价层级,支持包括OpenAI的GPT-4、GPT-3.5、An查看来源专题页GitHub 已收录 1803 篇文章

相关专题

long-context AI24 篇相关文章LLM evaluation26 篇相关文章

时间归档

May 20261495 篇已发布文章

延伸阅读

Flash Linear Attention:重塑长上下文AI模型的开源利器一款名为Flash Linear Attention的全新开源库,正在突破AI模型处理长序列的极限。通过激进优化线性注意力机制,它承诺大幅削减处理数十万token序列的计算与内存成本,直击下一代视频、基因组学与长文档AI的关键瓶颈。HumanEval:OpenAI的代码基准如何重塑AI编程评估范式OpenAI的HumanEval基准从根本上改变了AI社区评估代码生成模型的方式。它通过引入函数级、基于执行的测试框架,超越了肤浅的代码相似度指标,转向衡量程序的实际正确性。这一标准如今正驱动着整个AI编程领域的竞争格局。EvalPlus:颠覆性基准测试,揭露AI代码生成的隐蔽缺陷一项名为EvalPlus的全新基准测试正在从根本上改变我们评估大语言模型编码能力的方式。它通过生成数千个“扰动”测试用例来压力测试AI生成的代码,揭示了传统基准测试所遗漏的关键缺陷,迫使行业重新评估哪些模型真正具备投入软件工程任务的生产就绪MIT StreamingLLM 如何用“注意力水槽”击碎上下文长度枷锁MIT HAN 实验室的研究人员发布了 StreamingLLM 框架,它能让大语言模型处理无限长度的文本流而免于崩溃。该技术通过识别并保留“注意力水槽”——即稳定注意力计算的首批令牌——无需昂贵重训练,即可将生成质量稳定维持远超预训练上下

常见问题

GitHub 热点“LongBench v2: The New Gold Standard for Measuring AI's Long-Context Prowess”主要讲了什么?

The THUDM team at Tsinghua University has released LongBench v2, a major update to their widely adopted long-context understanding and generation benchmark, with both versions now…

这个 GitHub 项目在“How to run LongBench v2 evaluation on a custom model”上为什么会引发关注?

LongBench v2 is not merely a larger version of its predecessor; it represents a fundamental rethinking of how to evaluate long-context capabilities. The original LongBench covered 21 tasks across six categories: single-d…

从“LongBench v2 vs RULER benchmark comparison for 2025”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1163,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。