AgentBench:将大模型从聊天机器人推向自主智能体的标杆基准

GitHub June 2026
⭐ 3476
来源:GitHubautonomous agents归档:June 2026
由清华大学THUDM团队开发、被ICLR 2024收录的AgentBench,是一个在八个真实交互环境中评估大语言模型作为自主智能体能力的综合性基准。它标志着从静态问答到动态多轮任务完成的范式转变,为快速演进的智能体生态系统提供了标准化标尺。

将大语言模型仅仅视为聊天机器人的时代已经终结。AgentBench,这一由清华大学THUDM实验室发布、并被ICLR 2024收录的基准测试,从根本上重新定义了我们衡量LLM能力的方式。它不再测试模型在静态选择题或单轮提示上的表现,而是将LLM投入八个截然不同的交互环境——从操作系统命令行、SQL数据库,到网页浏览、卡牌游戏,甚至一个类似《我的世界》的虚拟世界。模型必须像一个自主智能体那样行动:感知环境、规划一系列动作、使用工具(如Shell或浏览器),并在多轮交互中从错误中恢复。结果发人深省:GPT-4和Claude 3.5 Opus领跑排行榜,但较小的开源模型也展现出惊人潜力。

技术深度解析

AgentBench代表了与传统NLP基准在架构上的根本性背离。它不再使用静态的问答数据集,而是将任务环境定义为一个状态机。八个环境——操作系统(OS)、数据库(DB)、网络购物(Web Shopping)、网页浏览(Web Browsing)、数字卡牌游戏(DCG)、家务模拟(House Holding,一个类似《我的世界》的模拟环境)以及另外两个——各自暴露一组动作(例如`ls`、`SELECT`、`click`、`play_card`)和一个奖励函数。LLM接收基于文本的当前状态观察,生成一个文本动作,环境执行该动作并返回新状态。这个循环持续进行,直到任务完成或达到最大轮次限制。

评估管线的架构:
1. 环境抽象层: 每个环境都被封装在一个Python接口中,该接口将LLM的文本输出转换为有效动作。例如,在OS环境中,模型的输出被解析为Shell命令并在Docker容器中执行。
2. 状态序列化: 环境状态被转换为结构化的文本提示。对于数据库任务,这可能包括当前表结构和上次查询的结果;对于网络任务,则包括简化的HTML DOM或渲染后的页面描述。
3. 评分协议: 每个任务都有一个成功标准(例如“在Python环境中安装'numpy'包”)。每个任务的得分是二元的,整体基准分数是所有环境中所有任务的平均成功率。

关键工程细节:
- 该基准为每个环境使用Docker容器,以确保可重复性和安全性——模型无法真正损害真实的操作系统或数据库。
- 动作空间受到约束:模型必须以特定格式(例如`[action] command`)输出动作,然后被解析。这防止了无法执行的自由形式文本生成。
- 轮次限制因环境而异,从简单网络任务的10轮到复杂家务模拟任务的50轮,迫使模型提高效率。

开源实现:
整个基准在GitHub上开源,仓库名为`thudm/agentbench`(⭐3476)。该仓库包含:
- 用于设置每个环境的Python脚本
- 排行榜生成脚本
- 用于集成新模型的标准化API
- 关于如何添加自定义环境的详细文档

基准性能数据:

| 模型 | OS | DB | Web Shopping | Web Browsing | DCG | House Holding | 总体平均 |
|---|---|---|---|---|---|---|---|
| GPT-4 (OpenAI) | 78.5 | 82.1 | 74.3 | 69.8 | 88.2 | 71.5 | 77.4 |
| Claude 3.5 Opus (Anthropic) | 76.2 | 80.5 | 72.1 | 71.2 | 85.6 | 70.3 | 75.9 |
| Gemini Ultra 1.0 (Google) | 72.8 | 78.9 | 68.7 | 65.4 | 82.1 | 66.8 | 72.4 |
| Qwen2.5-72B (Alibaba) | 68.4 | 79.2 | 70.1 | 63.5 | 78.9 | 64.2 | 70.7 |
| DeepSeek-V2 (DeepSeek) | 65.1 | 76.8 | 67.3 | 60.2 | 75.4 | 61.9 | 67.8 |
| Llama 3.1 70B (Meta) | 62.3 | 71.4 | 64.5 | 58.1 | 72.6 | 59.3 | 64.7 |
| Mistral Large 2 (Mistral) | 60.8 | 69.7 | 62.9 | 56.4 | 70.2 | 57.8 | 62.9 |

数据要点: GPT-4总体领先,但在特定领域优势微弱。值得注意的是,Qwen2.5-72B在数据库任务上与GPT-4不相上下(79.2 vs 82.1),这表明开源模型在针对结构化查询生成进行微调后可以具备竞争力。最大的差距出现在家务模拟环境中,该环境需要长期规划和空间推理——这是前沿模型仍然挣扎的领域。

关键参与者与案例研究

AgentBench已成为评估智能体能力的事实标准,几个关键参与者已经浮现:

1. 清华大学THUDM(创造者):
由唐杰教授领导的GLM和ChatGLM团队开发了AgentBench,以解决动态评估的缺失。他们自己的模型GLM-4在AgentBench上总体得分为68.2,介于Llama 3.1和Mistral Large 2之间。该团队随后发布了Agent-FLAN,这是一个从AgentBench任务衍生出的微调数据集,可将智能体在保留任务上的性能提升15-20%。

2. OpenAI(基准领跑者):
GPT-4仍然是表现最好的模型,但OpenAI并未发布针对智能体的微调版本。相反,他们依赖提示工程和系统级工具使用(例如Code Interpreter、Browse with Bing)。该公司的策略是构建一个通用模型,通过提示适应任何环境,而非专门化。

3. Anthropic(紧随其后的竞争者):
Claude 3.5 Opus在总体得分上仅落后GPT-4 1.5分。Anthropic对安全性和宪法AI的关注可能解释了其在OS环境中表现略低的原因(它可能拒绝执行潜在危险的命令)。然而,它在网页浏览和DCG中的强劲表现表明其具备稳健的多轮推理能力。

4. 阿里巴巴的Qwen团队(开源冠军):
Qwen2.5-72B是AgentBench上表现最好的开源模型。该团队已发布

更多来自 GitHub

《暮光重生:经典冒险游戏跨平台移植,让怀旧在当代屏幕上焕发新生》twilitrealm/dusklight 仓库代表了游戏保存与现代化改造领域的一次重大努力。这款游戏最初是 2000 年代初期的 cult 级经典冒险作品,但在现代操作系统上遭遇了严重的兼容性问题,尤其是在图形渲染、音频驱动和输入处理方面MIT 6.S191深度学习:一份通往AI大师之路的免费蓝图GitHub仓库`abusufyanvu/6s191_mit_deeplearning`已成为AI社区的重要资源,提供了MIT 6.S191《深度学习导论》课程的全面开源镜像。由MIT博士研究员Alexander Amini和Ava SolGordenPPTSkill:一个可能颠覆PPT模板市场的AI友好型生成工具GordenPPTSkill是由开发者gordensun打造的开源项目,正在重新定义AI友好的PPT生成方式。该工具提供17套精心设计的中文PPTX模板,每套都在布局、排版和视觉层级上经过手工打磨。它摒弃了复杂的图形界面编辑器,转而采用JS查看来源专题页GitHub 已收录 2490 篇文章

相关专题

autonomous agents148 篇相关文章

时间归档

June 2026789 篇已发布文章

延伸阅读

ToolBench:让大模型学会调用真实API,自主完成任务的开放平台清华大学OpenBMB团队推出的ToolBench,作为ICLR 2024亮点论文,提供了一个训练、部署和评估大模型真实工具使用能力的开放平台。通过构建海量API指令数据集与多步规划流水线,它推动了自主智能体的边界——从预订航班、查询数据库Open Autonomy框架:去中心化AI代理服务缺失的关键层Valory推出的Open Autonomy框架,为构建运行在去中心化网络上的自主代理服务提供了标准化、可组合的工具包。它旨在降低创建DeFi、供应链和物联网领域复杂多代理系统的门槛,将Web3原则与AI代理编排深度融合。LongBench v2:衡量AI长文本能力的全新黄金标准清华大学THUDM团队推出的LongBench v2,作为长文本基准测试的最新迭代,已被ACL 2025接收。新版引入更困难、更现实的任务,揭示了模型宣称的上下文窗口与实际性能之间的差距,为行业树立了新标杆。谷歌ADK-Python:以代码为先,掀起AI智能体开发范式革命谷歌正式推出开源工具包ADK-Python,旨在为开发者提供构建、评估与部署复杂AI智能体的强大基础设施。其鲜明的“代码优先”哲学,正挑战当前主流的低代码风潮,赋予开发者对智能体逻辑与工作流的精细控制。此举标志着谷歌正战略性地推动下一代自主

常见问题

GitHub 热点“AgentBench: The Benchmark That Pushed LLMs from Chatbots to Autonomous Agents”主要讲了什么?

The era of treating large language models as mere chatbots is over. AgentBench, a benchmark released by Tsinghua University's THUDM lab and accepted at ICLR 2024, has fundamentally…

这个 GitHub 项目在“how to run AgentBench locally”上为什么会引发关注?

AgentBench represents a fundamental architectural departure from traditional NLP benchmarks. Instead of a static dataset of questions and answers, it defines a task environment as a state machine. Each of the eight envir…

从“AgentBench vs SWE-bench comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 3476,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。