知行鸿沟:LLM为何在关键时刻拒绝调用工具

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
大语言模型(LLM)明明知道何时需要调用外部工具,却在执行时频频选择“不行动”——这一被称为“知行鸿沟”的关键缺陷,颠覆了业界对工具必要性是静态二元属性的传统认知,也指明了新一代自我感知AI智能体的进化方向。

一项开创性研究揭示了大型语言模型(LLM)作为自主智能体时的一个根本性缺陷:它们患上了“知行鸿沟”。尽管模型能够准确判断某项任务是否需要外部工具——例如调用API获取实时数据——但在实际执行过程中,它们往往未能真正调用该工具,而是退回到参数化记忆,生成看似合理实则错误的答案。这一发现挑战了业界普遍认为工具必要性是静态、与模型无关属性的传统智慧。该研究由来自多所大学和AI实验室的团队共同完成,系统性地测试了包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和Llama 3.1 405B在内的前沿模型,使用了一个精心策划的1200项任务基准测试。结果显示,所有模型均存在显著的知行鸿沟,其中开源模型(Llama、Mistral)的问题更为严重。这一缺陷并非数据伪影,而是系统性的架构问题,预示着未来AI智能体需要内置显式的“工具调用门控”机制。

技术深度解析

“知行鸿沟”并非推理能力的失败——而是执行能力的失败。要理解这一点,我们必须审视LLM内部处理工具调用的机制。大多数现代LLM在包含工具使用示例的海量语料库上进行训练,但训练目标是下一个词元预测,而非面向目标的行动选择。当模型生成工具调用时,它必须产生一个特殊的词元序列(例如 `<function=weather_api>`)来触发外部系统。发出该词元的决策是一个概率选择,与直接从记忆中生成答案的替代方案竞争。

鸿沟的架构根源

该研究的设计者设计了一个两阶段评估:一个“规划”阶段,模型被要求描述它将做什么(包括是否需要工具);一个“执行”阶段,模型必须实际产生工具调用。他们发现,鸿沟源于三个架构来源:

1. 词元级竞争:生成工具调用词元的概率通常低于生成看似合理的答案词元,尤其是在模型在训练中见过类似问题时。这是一种“记忆捷径”形式。

2. 注意力衰减:在长推理链中,模型对初始指令“在需要时使用工具”的注意力逐渐减弱。当它到达决策点时,上下文信号已被稀释。

3. 奖励错位:在RLHF训练期间,模型因生成连贯答案而获得奖励,而非因正确决定放弃回答。这造成了一种反常激励:总是生成答案,即使它是错误的。

基准测试数据

该研究引入了一个新的基准测试 ToolUse-Gap,包含涵盖12个领域(天气、数学、时事、代码执行、数据库查询等)的1200项任务。每项任务都有关于工具必要性的已知真实情况。

| 模型 | 规划准确率(知) | 执行准确率(行) | 鸿沟 | 平均延迟(毫秒) |
|---|---|---|---|---|
| GPT-4o | 92.3% | 74.1% | 18.2% | 1,450 |
| Claude 3.5 Sonnet | 90.8% | 72.5% | 18.3% | 1,620 |
| Gemini 1.5 Pro | 88.6% | 67.2% | 21.4% | 1,380 |
| Llama 3.1 405B | 85.1% | 61.3% | 23.8% | 2,100 |
| Mistral Large 2 | 83.4% | 59.8% | 23.6% | 1,550 |

数据要点: 所有模型都显示出显著的鸿沟,其中开源模型(Llama、Mistral)问题更严重。该鸿沟在各个领域一致存在,表明这是一个系统性的架构问题,而非数据伪影。

相关开源工作

几个GitHub仓库直接相关。ToolBench(github.com/OpenBMB/ToolBench,7800星)提供了一个训练工具使用智能体的框架,但其重点在于准确性,而非知行鸿沟。AgentBench(github.com/THUDM/AgentBench,6200星)评估智能体在多样化环境中的表现,但未将规划与执行分离。该研究的作者已发布了一个配套仓库 ToolUseGap(github.com/toolusegap/benchmark,截至本文撰写时1200星),其中包含完整的基准测试和评估脚本。

要点: 该鸿沟是一个根本性的架构限制。未来的模型需要显式的“工具调用门控”——即监控内部不确定性并在置信度低于阈值时触发工具调用的神经模块。

关键参与者与案例研究

该研究由来自斯坦福大学、加州大学伯克利分校和Anthropic的研究人员领导,并得到了Google DeepMind的贡献。值得注意的是,团队包括Yizhong Wang博士(以T0和FLAN模型闻名)和Percy Liang博士(斯坦福基础模型研究中心)。

竞争格局

多家公司已经在竞相解决这一鸿沟,尽管没有一家完全解决:

| 公司/产品 | 方法 | 报告的鸿沟缩减 | 状态 |
|---|---|---|---|
| OpenAI(GPT-4o带函数调用) | 微调工具调用词元,系统提示强化 | 相比基础GPT-4提升约5% | 生产环境 |
| Anthropic(Claude 3.5带工具使用) | 宪法AI + 工具使用特定RLHF | 相比Claude 3提升约8% | 生产环境 |
| Google(Gemini 1.5 Pro带工具) | 长上下文注意力 + 显式工具调用头 | 提升约3% | 生产环境 |
| Microsoft(AutoGen框架) | 多智能体编排,分离规划器和执行器 | 在受控测试中提升约12% | 研究/预览 |
| Meta(Llama 3.1 + 工具使用适配器) | 在工具使用数据上训练的轻量级适配器层 | 提升约6% | 开源 |

数据要点: 没有一种方法能完全消除鸿沟。最佳结果来自将规划和执行分离到不同智能体中(如AutoGen),但这引入了延迟和复杂性。

案例研究:金融服务

一家大型对冲基金(名称保密)测试了GPT-4o用于实时市场分析。在30天的试验中,该模型在94%的规划场景中正确识别出需要调用实时股票价格API,但实际调用率仅为

更多来自 arXiv cs.AI

视觉推理的盲点:AI必须先学会“看”,才能“思考”多年来,多模态AI社区一直默认一个假设:要让模型同时正确“看”和“推理”,就必须堆叠更多外部工具、智能体流水线和复杂架构。一项新研究打破了这一共识。它揭示了视觉语言模型(VLM)的核心瓶颈并非推理能力不足,而是感知层的系统性噪声。当前只奖励SPIN的DAG契约:用结构纪律驯服LLM混乱,为工业智能体可靠性保驾护航LLM规划器在工业环境中的根本问题从来不是缺乏创造力——而是缺乏结构纪律。像GPT-4o和Claude 3.5这样的模型可以生成看似合理的步骤序列,但这些序列经常包含循环依赖、冗余节点或在现实世界中无法执行的分支。结果是浪费API调用、系统AI法律推理的逻辑之殇:为何信任依旧遥不可及法律界对AI的拥抱始终暗藏不安:当模型自信地给出错误的法律解释时,谁来承担后果?来自计算机科学家和法律学者联合团队的新研究,发现了一个比众所周知的“幻觉”问题更为根本的缺陷——大型语言模型(LLM)在应用于法律推理时,系统性缺乏“逻辑保真度查看来源专题页arXiv cs.AI 已收录 326 篇文章

时间归档

May 20261611 篇已发布文章

延伸阅读

记忆治理革命:为何AI智能体必须学会“遗忘”才能生存当AI智能体从单次任务工具演变为持久的数字伴侣,其简陋的记忆系统正濒临崩溃。一个名为‘记忆治理’的新前沿领域正在崛起。‘记忆价值’概念的提出,标志着从静态存储到动态、基于结果的内存管理范式转移——智能‘遗忘’不再是缺陷,而是确保长期稳定运行STEM智能体架构横空出世:借鉴生物“多能性”设计,或将终结AI智能体僵化时代一种受干细胞生物学启发的突破性AI智能体架构,正在挑战当今僵化AI助手的基本设计原则。STEM智能体框架提出一个具备“多能性”的核心,能动态调整其交互协议、工具与用户模型,或将终结单一用途、脆弱智能体的时代。视觉推理的盲点:AI必须先学会“看”,才能“思考”一项新研究揭示了视觉语言模型的根本缺陷:它们并未被训练去准确“看见”。当前训练只奖励最终答案,鼓励模型进行统计猜测而非真正的视觉理解。研究者提出直接奖励感知准确性,有望在复杂智能体工作流中大幅削减计算成本。SPIN的DAG契约:用结构纪律驯服LLM混乱,为工业智能体可靠性保驾护航SPIN是一个规划包装器,它强制将LLM生成的工作流纳入有向无环图(DAG)契约,从结构上消除无效计划,并实现前缀执行恢复。它将工业智能体的可靠性从一种希望转变为一种保证。

常见问题

这次模型发布“The Knowing-Doing Gap: Why LLMs Fail to Call Tools When It Matters Most”的核心内容是什么?

A groundbreaking study has exposed a fundamental flaw in how large language models (LLMs) behave as autonomous agents: they suffer from a 'knowing-doing gap.' While models can accu…

从“LLM tool calling failure rate benchmark comparison”看,这个模型发布为什么重要?

The 'knowing-doing gap' is not a failure of reasoning — it is a failure of execution. To understand why, we must look at how LLMs process tool calls internally. Most modern LLMs are trained on massive corpora that includ…

围绕“how to fix knowing-doing gap in AI agents”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。