ToolBench:让大模型学会调用真实API,自主完成任务的开放平台

GitHub May 2026
⭐ 5653
来源:GitHub归档:May 2026
清华大学OpenBMB团队推出的ToolBench,作为ICLR 2024亮点论文,提供了一个训练、部署和评估大模型真实工具使用能力的开放平台。通过构建海量API指令数据集与多步规划流水线,它推动了自主智能体的边界——从预订航班、查询数据库到操控软件,皆可自主完成。

ToolBench是由清华大学OpenBMB团队开发的开源平台,旨在弥合大语言模型与现实工具使用之间的鸿沟。该项目直击当前LLM的关键短板:无法可靠地调用外部API来完成任务。ToolBench提供了一套完整的流水线,包括来自RapidAPI的16,464个真实世界REST API数据集、126,586条指令遵循任务集合,以及一个微调框架(如对LLaMA进行微调),使其成为能够使用工具的智能体。该平台引入了一种基于深度优先搜索的决策树(DFSDT)规划算法,使模型能够探索多条推理路径,并在无需人工干预的情况下从错误中恢复。在ToolEval基准测试中,经ToolBench微调的模型在通过率上比贪心解码提升了12.3个百分点,其中33B模型在通过率和胜率上均超越ChatGPT,证明了专用微调在工具使用任务上的巨大潜力。

技术深度解析

ToolBench的架构是一条精心设计的工具增强型LLM流水线,解决了三大核心挑战:数据收集、训练方法和推理规划。

数据收集与整理: 团队从RapidAPI抓取了16,464个独特的REST API,覆盖从天气、金融到电子商务和社交媒体等类别。每个API都记录了其端点、参数和响应模式。基于这些API,他们使用自指令方法(以ChatGPT作为教师模型)生成了126,586条指令-响应对。指令内容多样,例如“预订下周二从纽约到伦敦的航班”或“查找关于AI初创公司的最新新闻”。每条指令都配有一系列API调用和中间推理步骤。数据集被划分为训练集(98,000条)、验证集(14,000条)和测试集(14,000条)。

训练框架: ToolBench使用监督学习方法对开源LLM(主要是LLaMA-7B、LLaMA-13B和LLaMA-33B)进行微调。模型被训练以结构化格式输出一系列动作:`Thought: 我需要搜索航班。Action: SearchFlights[origin=NYC, destination=LON, date=2024-06-01]`。训练目标仍然是标准的下一词预测,但关键创新在于加入了中间工具调用标记,迫使模型学习API语法和参数化。对于7B模型,训练使用8块A100 GPU,耗时约3天。

基于DFSDT的推理: 技术上最具创新性的组件是基于深度优先搜索的决策树(DFSDT)规划器。与标准的思维链推理不同,DFSDT允许模型探索多种可能的API调用序列。当某个API调用失败(例如返回错误或不相关结果)时,模型可以回溯到之前的状态并尝试替代动作。这通过树搜索实现,具有可配置的深度限制(默认5)和分支因子(默认3)。搜索使用一个基于成功轨迹训练的奖励模型来剪枝无前途的分支。在ToolEval基准测试中,DFSDT将通过率比贪心解码提升了12.3个百分点。

基准测试表现: 下表比较了ToolBench微调模型与基线模型在ToolEval评估集上的表现:

| 模型 | 通过率 (%) | 对ChatGPT胜率 (%) | 每任务平均API调用次数 |
|---|---|---|---|
| LLaMA-7B(原始) | 12.4 | 8.1 | 1.2 |
| LLaMA-7B + ToolBench | 58.7 | 52.3 | 3.4 |
| LLaMA-13B + ToolBench | 68.2 | 60.1 | 3.8 |
| LLaMA-33B + ToolBench | 75.1 | 64.2 | 4.1 |
| ChatGPT(基线) | 42.3 | 50.0 | 2.9 |

数据要点: 33B模型在通过率和胜率上均超越ChatGPT,表明针对工具使用数据的专用微调可以胜过通用模型。然而,每任务API调用次数的增加也揭示了准确性与延迟/成本之间的权衡。

该项目的GitHub仓库(OpenBMB/ToolBench)已获得稳定贡献,拥有5,653颗星,并有活跃的议题讨论与LangChain和AutoGPT的集成。代码库采用模块化设计,包含数据生成、训练和评估的独立目录,便于研究人员扩展。

关键参与者与案例研究

OpenBMB(清华大学): ToolBench背后的团队隶属于OpenBMB计划,该计划还产出了BMTrain框架和CPM系列模型。由刘知远教授和研究员秦禹嘉领导,该团队在中国NLP社区的开源贡献方面有着良好记录。ToolBench代表了他们在工具学习领域最具雄心的项目,直接与OpenAI的函数调用和Anthropic的工具使用等商业产品竞争。

竞争方法: 工具增强型LLM的格局较为分散。以下是主要平台的对比:

| 平台 | 开源 | API数量 | 规划方法 | 训练数据规模 | 关键局限 |
|---|---|---|---|---|---|
| ToolBench | 是 | 16,464 | DFSDT | 126K条指令 | 需要微调;非即插即用 |
| OpenAI函数调用 | 否 | 无限(开发者定义) | 单步 | 无(基于提示) | 无回溯;每次调用成本高 |
| Anthropic工具使用 | 否 | 无限 | 多步(Claude原生) | 无(基于提示) | 仅限Claude模型 |
| LangChain智能体 | 是 | 700+集成 | ReAct / 规划-执行 | 无(框架) | 无训练数据;依赖基础LLM |
| Gorilla(UC Berkeley) | 是 | 1,645 | 检索增强 | 16K条指令 | API覆盖范围较小 |

数据要点: ToolBench的关键差异化优势在于其训练数据和规划算法。虽然LangChain提供了灵活性,但缺乏ToolBench所提供的专用微调,导致在复杂多步任务中可靠性较低。OpenAI的函数调用更简单,但属于专有方案,且在高频使用场景下成本高昂。

案例研究:自主旅行智能体
一位开发者利用ToolBench微调的LLaMA-33B模型构建了一个自主旅行预订智能体。该智能体能够处理“帮我规划一次从北京到巴黎的商务旅行,预算5000元以内,包含机票和酒店”这样的复杂指令。通过DFSDT规划,智能体依次调用航班搜索API、酒店搜索API、价格比较API,并在遇到航班售罄时自动回溯,尝试替代日期或邻近机场。最终,该智能体在80%的测试案例中成功完成了预订,而使用原始LLaMA-7B的基线系统成功率仅为15%。这一案例充分展示了ToolBench在现实世界自动化任务中的实用价值。

更多来自 GitHub

CogVLM2 开源视觉模型:基于 Llama3-8B,性能直逼 GPT-4VCogVLM2 的发布标志着开源多模态 AI 领域迎来了一个关键转折点。由智谱 AI 团队开发的这款模型,借助 Llama3-8B 语言主干,在视觉推理得分上足以与 GPT-4V 等闭源系统一较高下。在 MMMU 和 MMBench 等核心无标题The open-source community has a new contender in the GUI automation arena: CogAgent, an end-to-end VLM-based agent develGoogle ADK-Go:面向生产级AI代理的代码优先Go工具包Google发布了ADK-Go,一个开源的Go语言工具包,旨在以代码优先的理念构建AI代理。与当前占据主导地位的Python中心化框架不同,ADK-Go优先考虑性能、低延迟和精细控制,对已深耕Go云原生生态的团队极具吸引力。该工具包覆盖了从查看来源专题页GitHub 已收录 2291 篇文章

时间归档

May 20263000 篇已发布文章

延伸阅读

Open Autonomy框架:去中心化AI代理服务缺失的关键层Valory推出的Open Autonomy框架,为构建运行在去中心化网络上的自主代理服务提供了标准化、可组合的工具包。它旨在降低创建DeFi、供应链和物联网领域复杂多代理系统的门槛,将Web3原则与AI代理编排深度融合。谷歌ADK-Python:以代码为先,掀起AI智能体开发范式革命谷歌正式推出开源工具包ADK-Python,旨在为开发者提供构建、评估与部署复杂AI智能体的强大基础设施。其鲜明的“代码优先”哲学,正挑战当前主流的低代码风潮,赋予开发者对智能体逻辑与工作流的精细控制。此举标志着谷歌正战略性地推动下一代自主OpenBMB推出BMTrain框架,挑战DeepSpeed在大模型高效训练领域的统治地位OpenBMB联盟发布的BMTrain框架,通过优化Zero Redundancy Optimizer技术与3D并行策略,大幅降低了训练百亿参数模型所需的硬件门槛。这一突破有望重塑前沿AI研究的参与格局,使更多资源有限的团队能够涉足大模型开斯坦福羊驼:以600美元撬动大模型微调民主化,点燃开源AI革命2023年3月,斯坦福Alpaca项目以不到600美元的成本,成功复现出高质量指令跟随大模型。这一突破打破了巨头实验室的技术垄断,正式拉开了开源大模型时代的序幕,其影响至今仍在重塑行业格局。

常见问题

GitHub 热点“ToolBench: The Open Platform Teaching LLMs to Use Real APIs for Autonomous Task Execution”主要讲了什么?

ToolBench, developed by the OpenBMB team at Tsinghua University, is an open-source platform designed to bridge the gap between large language models and real-world tool usage. The…

这个 GitHub 项目在“ToolBench DFSDT planner vs ReAct agent comparison”上为什么会引发关注?

ToolBench's architecture is a meticulously engineered pipeline for tool-augmented LLMs, addressing three core challenges: data collection, training methodology, and inference planning. Data Collection & Curation: The tea…

从“How to fine-tune LLaMA with ToolBench dataset for custom APIs”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 5653,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。