知行鸿沟：LLM为何在关键时刻拒绝调用工具

2026年5月15日 12:14 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI 归档：May 2026

大语言模型（LLM）明明知道何时需要调用外部工具，却在执行时频频选择“不行动”——这一被称为“知行鸿沟”的关键缺陷，颠覆了业界对工具必要性是静态二元属性的传统认知，也指明了新一代自我感知AI智能体的进化方向。

一项开创性研究揭示了大型语言模型（LLM）作为自主智能体时的一个根本性缺陷：它们患上了“知行鸿沟”。尽管模型能够准确判断某项任务是否需要外部工具——例如调用API获取实时数据——但在实际执行过程中，它们往往未能真正调用该工具，而是退回到参数化记忆，生成看似合理实则错误的答案。这一发现挑战了业界普遍认为工具必要性是静态、与模型无关属性的传统智慧。该研究由来自多所大学和AI实验室的团队共同完成，系统性地测试了包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和Llama 3.1 405B在内的前沿模型，使用了一个精心策划的1200项任务基准测试。结果显示，所有模型均存在显著的知行鸿沟，其中开源模型（Llama、Mistral）的问题更为严重。这一缺陷并非数据伪影，而是系统性的架构问题，预示着未来AI智能体需要内置显式的“工具调用门控”机制。

技术深度解析

“知行鸿沟”并非推理能力的失败——而是执行能力的失败。要理解这一点，我们必须审视LLM内部处理工具调用的机制。大多数现代LLM在包含工具使用示例的海量语料库上进行训练，但训练目标是下一个词元预测，而非面向目标的行动选择。当模型生成工具调用时，它必须产生一个特殊的词元序列（例如 `<function=weather_api>`）来触发外部系统。发出该词元的决策是一个概率选择，与直接从记忆中生成答案的替代方案竞争。

鸿沟的架构根源

该研究的设计者设计了一个两阶段评估：一个“规划”阶段，模型被要求描述它将做什么（包括是否需要工具）；一个“执行”阶段，模型必须实际产生工具调用。他们发现，鸿沟源于三个架构来源：

1. 词元级竞争：生成工具调用词元的概率通常低于生成看似合理的答案词元，尤其是在模型在训练中见过类似问题时。这是一种“记忆捷径”形式。

2. 注意力衰减：在长推理链中，模型对初始指令“在需要时使用工具”的注意力逐渐减弱。当它到达决策点时，上下文信号已被稀释。

3. 奖励错位：在RLHF训练期间，模型因生成连贯答案而获得奖励，而非因正确决定放弃回答。这造成了一种反常激励：总是生成答案，即使它是错误的。

基准测试数据

该研究引入了一个新的基准测试 ToolUse-Gap，包含涵盖12个领域（天气、数学、时事、代码执行、数据库查询等）的1200项任务。每项任务都有关于工具必要性的已知真实情况。

| 模型 | 规划准确率（知） | 执行准确率（行） | 鸿沟 | 平均延迟（毫秒） |
|---|---|---|---|---|
| GPT-4o | 92.3% | 74.1% | 18.2% | 1,450 |
| Claude 3.5 Sonnet | 90.8% | 72.5% | 18.3% | 1,620 |
| Gemini 1.5 Pro | 88.6% | 67.2% | 21.4% | 1,380 |
| Llama 3.1 405B | 85.1% | 61.3% | 23.8% | 2,100 |
| Mistral Large 2 | 83.4% | 59.8% | 23.6% | 1,550 |

数据要点： 所有模型都显示出显著的鸿沟，其中开源模型（Llama、Mistral）问题更严重。该鸿沟在各个领域一致存在，表明这是一个系统性的架构问题，而非数据伪影。

关键参与者与案例研究

该研究由来自斯坦福大学、加州大学伯克利分校和Anthropic的研究人员领导，并得到了Google DeepMind的贡献。值得注意的是，团队包括Yizhong Wang博士（以T0和FLAN模型闻名）和Percy Liang博士（斯坦福基础模型研究中心）。

竞争格局

多家公司已经在竞相解决这一鸿沟，尽管没有一家完全解决：

| 公司/产品 | 方法 | 报告的鸿沟缩减 | 状态 |
|---|---|---|---|
| OpenAI（GPT-4o带函数调用） | 微调工具调用词元，系统提示强化 | 相比基础GPT-4提升约5% | 生产环境 |
| Anthropic（Claude 3.5带工具使用） | 宪法AI + 工具使用特定RLHF | 相比Claude 3提升约8% | 生产环境 |
| Google（Gemini 1.5 Pro带工具） | 长上下文注意力 + 显式工具调用头 | 提升约3% | 生产环境 |
| Microsoft（AutoGen框架） | 多智能体编排，分离规划器和执行器 | 在受控测试中提升约12% | 研究/预览 |
| Meta（Llama 3.1 + 工具使用适配器） | 在工具使用数据上训练的轻量级适配器层 | 提升约6% | 开源 |

数据要点： 没有一种方法能完全消除鸿沟。最佳结果来自将规划和执行分离到不同智能体中（如AutoGen），但这引入了延迟和复杂性。

案例研究：金融服务

一家大型对冲基金（名称保密）测试了GPT-4o用于实时市场分析。在30天的试验中，该模型在94%的规划场景中正确识别出需要调用实时股票价格API，但实际调用率仅为

时间归档

常见问题

这次模型发布“The Knowing-Doing Gap: Why LLMs Fail to Call Tools When It Matters Most”的核心内容是什么？

A groundbreaking study has exposed a fundamental flaw in how large language models (LLMs) behave as autonomous agents: they suffer from a 'knowing-doing gap.' While models can accu…

从“LLM tool calling failure rate benchmark comparison”看，这个模型发布为什么重要？

The 'knowing-doing gap' is not a failure of reasoning — it is a failure of execution. To understand why, we must look at how LLMs process tool calls internally. Most modern LLMs are trained on massive corpora that includ…

围绕“how to fix knowing-doing gap in AI agents”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。