ToolBench：让大模型学会调用真实API，自主完成任务的开放平台

ToolBench是由清华大学OpenBMB团队开发的开源平台，旨在弥合大语言模型与现实工具使用之间的鸿沟。该项目直击当前LLM的关键短板：无法可靠地调用外部API来完成任务。ToolBench提供了一套完整的流水线，包括来自RapidAPI的16,464个真实世界REST API数据集、126,586条指令遵循任务集合，以及一个微调框架（如对LLaMA进行微调），使其成为能够使用工具的智能体。该平台引入了一种基于深度优先搜索的决策树（DFSDT）规划算法，使模型能够探索多条推理路径，并在无需人工干预的情况下从错误中恢复。在ToolEval基准测试中，经ToolBench微调的模型在通过率上比贪心解码提升了12.3个百分点，其中33B模型在通过率和胜率上均超越ChatGPT，证明了专用微调在工具使用任务上的巨大潜力。

技术深度解析

ToolBench的架构是一条精心设计的工具增强型LLM流水线，解决了三大核心挑战：数据收集、训练方法和推理规划。

数据收集与整理： 团队从RapidAPI抓取了16,464个独特的REST API，覆盖从天气、金融到电子商务和社交媒体等类别。每个API都记录了其端点、参数和响应模式。基于这些API，他们使用自指令方法（以ChatGPT作为教师模型）生成了126,586条指令-响应对。指令内容多样，例如“预订下周二从纽约到伦敦的航班”或“查找关于AI初创公司的最新新闻”。每条指令都配有一系列API调用和中间推理步骤。数据集被划分为训练集（98,000条）、验证集（14,000条）和测试集（14,000条）。

训练框架： ToolBench使用监督学习方法对开源LLM（主要是LLaMA-7B、LLaMA-13B和LLaMA-33B）进行微调。模型被训练以结构化格式输出一系列动作：`Thought: 我需要搜索航班。Action: SearchFlights[origin=NYC, destination=LON, date=2024-06-01]`。训练目标仍然是标准的下一词预测，但关键创新在于加入了中间工具调用标记，迫使模型学习API语法和参数化。对于7B模型，训练使用8块A100 GPU，耗时约3天。

基于DFSDT的推理： 技术上最具创新性的组件是基于深度优先搜索的决策树（DFSDT）规划器。与标准的思维链推理不同，DFSDT允许模型探索多种可能的API调用序列。当某个API调用失败（例如返回错误或不相关结果）时，模型可以回溯到之前的状态并尝试替代动作。这通过树搜索实现，具有可配置的深度限制（默认5）和分支因子（默认3）。搜索使用一个基于成功轨迹训练的奖励模型来剪枝无前途的分支。在ToolEval基准测试中，DFSDT将通过率比贪心解码提升了12.3个百分点。

基准测试表现： 下表比较了ToolBench微调模型与基线模型在ToolEval评估集上的表现：

| 模型 | 通过率 (%) | 对ChatGPT胜率 (%) | 每任务平均API调用次数 |
|---|---|---|---|
| LLaMA-7B（原始） | 12.4 | 8.1 | 1.2 |
| LLaMA-7B + ToolBench | 58.7 | 52.3 | 3.4 |
| LLaMA-13B + ToolBench | 68.2 | 60.1 | 3.8 |
| LLaMA-33B + ToolBench | 75.1 | 64.2 | 4.1 |
| ChatGPT（基线） | 42.3 | 50.0 | 2.9 |

数据要点： 33B模型在通过率和胜率上均超越ChatGPT，表明针对工具使用数据的专用微调可以胜过通用模型。然而，每任务API调用次数的增加也揭示了准确性与延迟/成本之间的权衡。

该项目的GitHub仓库（OpenBMB/ToolBench）已获得稳定贡献，拥有5,653颗星，并有活跃的议题讨论与LangChain和AutoGPT的集成。代码库采用模块化设计，包含数据生成、训练和评估的独立目录，便于研究人员扩展。

关键参与者与案例研究

OpenBMB（清华大学）： ToolBench背后的团队隶属于OpenBMB计划，该计划还产出了BMTrain框架和CPM系列模型。由刘知远教授和研究员秦禹嘉领导，该团队在中国NLP社区的开源贡献方面有着良好记录。ToolBench代表了他们在工具学习领域最具雄心的项目，直接与OpenAI的函数调用和Anthropic的工具使用等商业产品竞争。

竞争方法： 工具增强型LLM的格局较为分散。以下是主要平台的对比：

| 平台 | 开源 | API数量 | 规划方法 | 训练数据规模 | 关键局限 |
|---|---|---|---|---|---|
| ToolBench | 是 | 16,464 | DFSDT | 126K条指令 | 需要微调；非即插即用 |
| OpenAI函数调用 | 否 | 无限（开发者定义） | 单步 | 无（基于提示） | 无回溯；每次调用成本高 |
| Anthropic工具使用 | 否 | 无限 | 多步（Claude原生） | 无（基于提示） | 仅限Claude模型 |
| LangChain智能体 | 是 | 700+集成 | ReAct / 规划-执行 | 无（框架） | 无训练数据；依赖基础LLM |
| Gorilla（UC Berkeley） | 是 | 1,645 | 检索增强 | 16K条指令 | API覆盖范围较小 |

数据要点： ToolBench的关键差异化优势在于其训练数据和规划算法。虽然LangChain提供了灵活性，但缺乏ToolBench所提供的专用微调，导致在复杂多步任务中可靠性较低。OpenAI的函数调用更简单，但属于专有方案，且在高频使用场景下成本高昂。

案例研究：自主旅行智能体
一位开发者利用ToolBench微调的LLaMA-33B模型构建了一个自主旅行预订智能体。该智能体能够处理“帮我规划一次从北京到巴黎的商务旅行，预算5000元以内，包含机票和酒店”这样的复杂指令。通过DFSDT规划，智能体依次调用航班搜索API、酒店搜索API、价格比较API，并在遇到航班售罄时自动回溯，尝试替代日期或邻近机场。最终，该智能体在80%的测试案例中成功完成了预订，而使用原始LLaMA-7B的基线系统成功率仅为15%。这一案例充分展示了ToolBench在现实世界自动化任务中的实用价值。

时间归档

延伸阅读

常见问题

GitHub 热点“ToolBench: The Open Platform Teaching LLMs to Use Real APIs for Autonomous Task Execution”主要讲了什么？

ToolBench, developed by the OpenBMB team at Tsinghua University, is an open-source platform designed to bridge the gap between large language models and real-world tool usage. The…

这个 GitHub 项目在“ToolBench DFSDT planner vs ReAct agent comparison”上为什么会引发关注？

ToolBench's architecture is a meticulously engineered pipeline for tool-augmented LLMs, addressing three core challenges: data collection, training methodology, and inference planning. Data Collection & Curation: The tea…

从“How to fine-tune LLaMA with ToolBench dataset for custom APIs”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 5653，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。