AgentBench：将大模型从聊天机器人推向自主智能体的标杆基准

2026年6月9日 12:13 AINews GitHub June 2026

⭐ 3476

来源：GitHub autonomous agents 归档：June 2026

由清华大学THUDM团队开发、被ICLR 2024收录的AgentBench，是一个在八个真实交互环境中评估大语言模型作为自主智能体能力的综合性基准。它标志着从静态问答到动态多轮任务完成的范式转变，为快速演进的智能体生态系统提供了标准化标尺。

将大语言模型仅仅视为聊天机器人的时代已经终结。AgentBench，这一由清华大学THUDM实验室发布、并被ICLR 2024收录的基准测试，从根本上重新定义了我们衡量LLM能力的方式。它不再测试模型在静态选择题或单轮提示上的表现，而是将LLM投入八个截然不同的交互环境——从操作系统命令行、SQL数据库，到网页浏览、卡牌游戏，甚至一个类似《我的世界》的虚拟世界。模型必须像一个自主智能体那样行动：感知环境、规划一系列动作、使用工具（如Shell或浏览器），并在多轮交互中从错误中恢复。结果发人深省：GPT-4和Claude 3.5 Opus领跑排行榜，但较小的开源模型也展现出惊人潜力。

技术深度解析

AgentBench代表了与传统NLP基准在架构上的根本性背离。它不再使用静态的问答数据集，而是将任务环境定义为一个状态机。八个环境——操作系统（OS）、数据库（DB）、网络购物（Web Shopping）、网页浏览（Web Browsing）、数字卡牌游戏（DCG）、家务模拟（House Holding，一个类似《我的世界》的模拟环境）以及另外两个——各自暴露一组动作（例如`ls`、`SELECT`、`click`、`play_card`）和一个奖励函数。LLM接收基于文本的当前状态观察，生成一个文本动作，环境执行该动作并返回新状态。这个循环持续进行，直到任务完成或达到最大轮次限制。

评估管线的架构：
1. 环境抽象层： 每个环境都被封装在一个Python接口中，该接口将LLM的文本输出转换为有效动作。例如，在OS环境中，模型的输出被解析为Shell命令并在Docker容器中执行。
2. 状态序列化： 环境状态被转换为结构化的文本提示。对于数据库任务，这可能包括当前表结构和上次查询的结果；对于网络任务，则包括简化的HTML DOM或渲染后的页面描述。
3. 评分协议： 每个任务都有一个成功标准（例如“在Python环境中安装'numpy'包”）。每个任务的得分是二元的，整体基准分数是所有环境中所有任务的平均成功率。

关键工程细节：
- 该基准为每个环境使用Docker容器，以确保可重复性和安全性——模型无法真正损害真实的操作系统或数据库。
- 动作空间受到约束：模型必须以特定格式（例如`[action] command`）输出动作，然后被解析。这防止了无法执行的自由形式文本生成。
- 轮次限制因环境而异，从简单网络任务的10轮到复杂家务模拟任务的50轮，迫使模型提高效率。

开源实现：
整个基准在GitHub上开源，仓库名为`thudm/agentbench`（⭐3476）。该仓库包含：
- 用于设置每个环境的Python脚本
- 排行榜生成脚本
- 用于集成新模型的标准化API
- 关于如何添加自定义环境的详细文档

基准性能数据：

| 模型 | OS | DB | Web Shopping | Web Browsing | DCG | House Holding | 总体平均 |
|---|---|---|---|---|---|---|---|
| GPT-4 (OpenAI) | 78.5 | 82.1 | 74.3 | 69.8 | 88.2 | 71.5 | 77.4 |
| Claude 3.5 Opus (Anthropic) | 76.2 | 80.5 | 72.1 | 71.2 | 85.6 | 70.3 | 75.9 |
| Gemini Ultra 1.0 (Google) | 72.8 | 78.9 | 68.7 | 65.4 | 82.1 | 66.8 | 72.4 |
| Qwen2.5-72B (Alibaba) | 68.4 | 79.2 | 70.1 | 63.5 | 78.9 | 64.2 | 70.7 |
| DeepSeek-V2 (DeepSeek) | 65.1 | 76.8 | 67.3 | 60.2 | 75.4 | 61.9 | 67.8 |
| Llama 3.1 70B (Meta) | 62.3 | 71.4 | 64.5 | 58.1 | 72.6 | 59.3 | 64.7 |
| Mistral Large 2 (Mistral) | 60.8 | 69.7 | 62.9 | 56.4 | 70.2 | 57.8 | 62.9 |

数据要点： GPT-4总体领先，但在特定领域优势微弱。值得注意的是，Qwen2.5-72B在数据库任务上与GPT-4不相上下（79.2 vs 82.1），这表明开源模型在针对结构化查询生成进行微调后可以具备竞争力。最大的差距出现在家务模拟环境中，该环境需要长期规划和空间推理——这是前沿模型仍然挣扎的领域。

关键参与者与案例研究

AgentBench已成为评估智能体能力的事实标准，几个关键参与者已经浮现：

1. 清华大学THUDM（创造者）：
由唐杰教授领导的GLM和ChatGLM团队开发了AgentBench，以解决动态评估的缺失。他们自己的模型GLM-4在AgentBench上总体得分为68.2，介于Llama 3.1和Mistral Large 2之间。该团队随后发布了Agent-FLAN，这是一个从AgentBench任务衍生出的微调数据集，可将智能体在保留任务上的性能提升15-20%。

2. OpenAI（基准领跑者）：
GPT-4仍然是表现最好的模型，但OpenAI并未发布针对智能体的微调版本。相反，他们依赖提示工程和系统级工具使用（例如Code Interpreter、Browse with Bing）。该公司的策略是构建一个通用模型，通过提示适应任何环境，而非专门化。

3. Anthropic（紧随其后的竞争者）：
Claude 3.5 Opus在总体得分上仅落后GPT-4 1.5分。Anthropic对安全性和宪法AI的关注可能解释了其在OS环境中表现略低的原因（它可能拒绝执行潜在危险的命令）。然而，它在网页浏览和DCG中的强劲表现表明其具备稳健的多轮推理能力。

4. 阿里巴巴的Qwen团队（开源冠军）：
Qwen2.5-72B是AgentBench上表现最好的开源模型。该团队已发布

时间归档

常见问题

GitHub 热点“AgentBench: The Benchmark That Pushed LLMs from Chatbots to Autonomous Agents”主要讲了什么？

The era of treating large language models as mere chatbots is over. AgentBench, a benchmark released by Tsinghua University's THUDM lab and accepted at ICLR 2024, has fundamentally…

这个 GitHub 项目在“how to run AgentBench locally”上为什么会引发关注？

AgentBench represents a fundamental architectural departure from traditional NLP benchmarks. Instead of a static dataset of questions and answers, it defines a task environment as a state machine. Each of the eight envir…

从“AgentBench vs SWE-bench comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 3476，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

AgentBench：将大模型从聊天机器人推向自主智能体的标杆基准

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题