Gorilla BFCL基准测试：大模型工具调用霸主地位的隐秘战场

2026年4月26日 13:06 AINews GitHub April 2026

⭐ 0

来源：GitHub 归档：April 2026

伯克利函数调用排行榜（BFCL）已成为衡量大语言模型能否精准调用API与使用工具的权威基准。本文独家深度剖析该基准的设计逻辑、对AI智能体生态的深远影响，以及它揭示的大模型能力下一个前沿。

伯克利函数调用排行榜（BFCL）作为UC Berkeley Gorilla项目的核心组件，已跃升为业界评估大模型函数调用能力的黄金标准——即根据自然语言指令正确选择并执行API调用的能力。与测试知识或推理能力的通用基准不同，BFCL聚焦于工具使用这一工程关键技能，而它正是现代AI智能体的基石。该基准涵盖数千个测试用例，横跨搜索、数据检索、云服务等多个领域，涉及简单、多重、并行及嵌套函数调用。评估指标包括精确匹配准确率、参数正确性及幻觉率。截至2026年初，排行榜显示前沿模型间竞争白热化，而嵌套函数调用仍是最大挑战，即便是顶尖模型在此项得分也低于80%。Gorilla-OpenFunctions等专用微调模型的表现证明，领域特定训练能有效缩小与通用巨头的差距。

技术深度解析

BFCL基准测试旨在以系统化、可复现的方式对LLM的函数调用能力进行压力测试。其核心是定义一组函数规范——包含名称、参数、类型和描述——模型必须正确解析并调用。测试套件分为以下几类：

- 简单函数调用：一个函数，一次调用。
- 多重函数调用：单次交互中调用多个独立函数。
- 并行函数调用：可同时调用的多个函数（无相互依赖）。
- 嵌套函数调用：一个函数的输出成为另一个函数的输入，需要多步推理。
- 相关性检测：判断是否需要函数调用（拒绝无关查询）。

每个类别都包含参数类型（字符串、整数、枚举、对象）、可选参数以及空字符串或空值等边缘情况的变体。评估指标主要是整个函数调用结构的精确匹配准确率，包括参数值，这远比词元级指标严格。

一个关键技术洞察是基准测试使用了规范化函数签名。为避免模型特定格式带来的偏差，所有函数定义在评估前都被转换为标准化的JSON模式。这确保衡量的是模型理解模式的能力，而非其对特定API风格的熟悉程度。

BFCL所属的Gorilla项目本身，是由UC Berkeley研究员（包括Shishir Patil）领导的开源项目。其GitHub仓库（ShishirPatil/gorilla）已获得超过15,000颗星，不仅包含基准测试，还包含专为函数调用设计的微调模型系列（Gorilla-OpenFunctions）。该仓库提供了生成新测试用例、本地评估模型以及向排行榜提交结果的脚本。

数据表格：领先模型BFCL性能表现（截至2026年第一季度）

| 模型 | 简单 | 多重 | 并行 | 嵌套 | 相关性 | 总体 |
|---|---|---|---|---|---|---|
| GPT-4o (2025-11-20) | 97.2% | 94.1% | 91.8% | 78.5% | 99.0% | 92.1% |
| Claude 3.5 Opus | 96.5% | 93.0% | 90.2% | 76.1% | 98.5% | 90.9% |
| Gemini 2.0 Pro | 95.8% | 91.4% | 88.9% | 72.3% | 97.8% | 89.2% |
| Llama 4 70B | 93.1% | 88.7% | 85.4% | 65.2% | 96.4% | 85.8% |
| Gorilla-OpenFunctions v3 | 96.0% | 92.5% | 89.1% | 74.8% | 98.2% | 90.1% |
| Nous Hermes 2 Mixtral | 91.2% | 85.3% | 81.0% | 61.5% | 95.1% | 82.8% |

数据要点：表格揭示了清晰的层级：前沿专有模型（GPT-4o、Claude 3.5）在所有类别中领先，但差距在简单调用上最小，在嵌套调用上最大。嵌套函数调用仍是最艰巨的挑战，即使最佳模型得分也低于80%。这表明当前LLM在处理多步推理链（一个API调用的输出必须指导下一个调用）时存在困难——而这正是复杂智能体工作流的关键能力。专用微调模型Gorilla-OpenFunctions的强劲表现表明，领域特定训练可以缩小与通用巨头的差距。

关键参与者与案例研究

BFCL排行榜已成为模型提供商争夺头把交椅的战场，各方都希望通过顶尖排名来彰显其智能体就绪度。关键参与者包括：

- OpenAI：其GPT-4o系列持续霸榜，得益于对API文档和工具使用场景的大量训练。OpenAI已将函数调用作为其API的一等公民特性，提供专用系统消息和结构化输出模式。
- Anthropic：Claude 3.5 Opus紧随其后，在相关性检测（判断何时*不*应调用函数）方面尤为突出。Anthropic对安全性和可靠性的重视在此基准测试中得到了良好体现。
- Google DeepMind：Gemini 2.0 Pro表现出竞争力，尤其在并行调用上，这得益于其对Google生态系统中结构化数据的原生理解。
- Meta：Llama 4 70B是最强的开源权重竞争者，但在复杂场景上仍落后于专有模型。Meta一直在大力投资工具使用的微调，发布了Llama-4-Tool等专用版本。
- Mistral AI：其由社区微调（如Nous Hermes）的Mixtral 8x22B模型提供了经济高效的替代方案，但在嵌套调用上仍显不足。

除模型提供商外，该基准测试还被日益增长的智能体框架和平台生态系统所使用：

- LangChain：将BFCL作为其智能体编排库中选择底层LLM的主要评估指标之一。
- AutoGPT：这个开源自主智能体项目根据BFCL对其模型选择进行基准测试，以确保可靠的工具执行。
- Vercel AI SDK：在其AI驱动应用的测试套件中集成了类似BFCL的评估。

时间归档

常见问题

GitHub 热点“Gorilla BFCL Benchmark: The Hidden Battle for LLM Tool-Use Supremacy”主要讲了什么？

The Berkeley Function Calling Leaderboard (BFCL), part of the Gorilla project from UC Berkeley, has become the industry's gold standard for evaluating LLMs on function calling—the…

这个 GitHub 项目在“How to run BFCL locally for custom model evaluation”上为什么会引发关注？

The BFCL benchmark is engineered to stress-test the function calling capabilities of LLMs in a systematic, reproducible manner. At its core, it defines a set of function specifications—complete with names, parameters, ty…

从“Gorilla OpenFunctions vs GPT-4 function calling comparison”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 0，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Gorilla BFCL基准测试：大模型工具调用霸主地位的隐秘战场

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题