技术深度解析
AgentBench代表了与传统NLP基准在架构上的根本性背离。它不再使用静态的问答数据集,而是将任务环境定义为一个状态机。八个环境——操作系统(OS)、数据库(DB)、网络购物(Web Shopping)、网页浏览(Web Browsing)、数字卡牌游戏(DCG)、家务模拟(House Holding,一个类似《我的世界》的模拟环境)以及另外两个——各自暴露一组动作(例如`ls`、`SELECT`、`click`、`play_card`)和一个奖励函数。LLM接收基于文本的当前状态观察,生成一个文本动作,环境执行该动作并返回新状态。这个循环持续进行,直到任务完成或达到最大轮次限制。
评估管线的架构:
1. 环境抽象层: 每个环境都被封装在一个Python接口中,该接口将LLM的文本输出转换为有效动作。例如,在OS环境中,模型的输出被解析为Shell命令并在Docker容器中执行。
2. 状态序列化: 环境状态被转换为结构化的文本提示。对于数据库任务,这可能包括当前表结构和上次查询的结果;对于网络任务,则包括简化的HTML DOM或渲染后的页面描述。
3. 评分协议: 每个任务都有一个成功标准(例如“在Python环境中安装'numpy'包”)。每个任务的得分是二元的,整体基准分数是所有环境中所有任务的平均成功率。
关键工程细节:
- 该基准为每个环境使用Docker容器,以确保可重复性和安全性——模型无法真正损害真实的操作系统或数据库。
- 动作空间受到约束:模型必须以特定格式(例如`[action] command`)输出动作,然后被解析。这防止了无法执行的自由形式文本生成。
- 轮次限制因环境而异,从简单网络任务的10轮到复杂家务模拟任务的50轮,迫使模型提高效率。
开源实现:
整个基准在GitHub上开源,仓库名为`thudm/agentbench`(⭐3476)。该仓库包含:
- 用于设置每个环境的Python脚本
- 排行榜生成脚本
- 用于集成新模型的标准化API
- 关于如何添加自定义环境的详细文档
基准性能数据:
| 模型 | OS | DB | Web Shopping | Web Browsing | DCG | House Holding | 总体平均 |
|---|---|---|---|---|---|---|---|
| GPT-4 (OpenAI) | 78.5 | 82.1 | 74.3 | 69.8 | 88.2 | 71.5 | 77.4 |
| Claude 3.5 Opus (Anthropic) | 76.2 | 80.5 | 72.1 | 71.2 | 85.6 | 70.3 | 75.9 |
| Gemini Ultra 1.0 (Google) | 72.8 | 78.9 | 68.7 | 65.4 | 82.1 | 66.8 | 72.4 |
| Qwen2.5-72B (Alibaba) | 68.4 | 79.2 | 70.1 | 63.5 | 78.9 | 64.2 | 70.7 |
| DeepSeek-V2 (DeepSeek) | 65.1 | 76.8 | 67.3 | 60.2 | 75.4 | 61.9 | 67.8 |
| Llama 3.1 70B (Meta) | 62.3 | 71.4 | 64.5 | 58.1 | 72.6 | 59.3 | 64.7 |
| Mistral Large 2 (Mistral) | 60.8 | 69.7 | 62.9 | 56.4 | 70.2 | 57.8 | 62.9 |
数据要点: GPT-4总体领先,但在特定领域优势微弱。值得注意的是,Qwen2.5-72B在数据库任务上与GPT-4不相上下(79.2 vs 82.1),这表明开源模型在针对结构化查询生成进行微调后可以具备竞争力。最大的差距出现在家务模拟环境中,该环境需要长期规划和空间推理——这是前沿模型仍然挣扎的领域。
关键参与者与案例研究
AgentBench已成为评估智能体能力的事实标准,几个关键参与者已经浮现:
1. 清华大学THUDM(创造者):
由唐杰教授领导的GLM和ChatGLM团队开发了AgentBench,以解决动态评估的缺失。他们自己的模型GLM-4在AgentBench上总体得分为68.2,介于Llama 3.1和Mistral Large 2之间。该团队随后发布了Agent-FLAN,这是一个从AgentBench任务衍生出的微调数据集,可将智能体在保留任务上的性能提升15-20%。
2. OpenAI(基准领跑者):
GPT-4仍然是表现最好的模型,但OpenAI并未发布针对智能体的微调版本。相反,他们依赖提示工程和系统级工具使用(例如Code Interpreter、Browse with Bing)。该公司的策略是构建一个通用模型,通过提示适应任何环境,而非专门化。
3. Anthropic(紧随其后的竞争者):
Claude 3.5 Opus在总体得分上仅落后GPT-4 1.5分。Anthropic对安全性和宪法AI的关注可能解释了其在OS环境中表现略低的原因(它可能拒绝执行潜在危险的命令)。然而,它在网页浏览和DCG中的强劲表现表明其具备稳健的多轮推理能力。
4. 阿里巴巴的Qwen团队(开源冠军):
Qwen2.5-72B是AgentBench上表现最好的开源模型。该团队已发布