零样本目标识别:大语言模型如何无需训练即可解码人类意图

arXiv cs.AI May 2026
来源:arXiv cs.AIlarge language models归档:May 2026
大语言模型如今能够仅凭观察到的行为序列推断人类目标,无需任何训练样本,在溯因推理任务上超越传统规划器。这一突破有望大幅降低部署成本,并借助LLM内生的世界知识,实现更自然的人机协作。

新一轮研究表明,大语言模型(LLM)展现出卓越的零样本目标识别能力——无需任何先例或任务特定训练,即可从一系列人类行为中推断出潜在目标。这种植根于溯因推理的能力,使LLM能够绕过经典规划算法的计算瓶颈;后者虽擅长正向生成动作序列,却在从部分观测中逆向推断目标时举步维艰。其意义深远:传统目标识别系统依赖手工构建的知识库、对可能目标的穷举搜索,或大量标注的行为-目标配对数据集。这些方法脆弱、扩展成本高昂,且难以适应开放世界场景。而LLM凭借预训练阶段积累的海量世界知识,实现了从“规划”到“理解”的范式跃迁。

技术深度解析

零样本目标识别本质上是一个溯因推理问题:给定一组观测到的动作序列(例如“打开浏览器”、“搜索航班”、“查看日历”),系统必须推断出最可能的目标(例如“预订假期”)。传统规划器,如STRIPS或分层任务网络(HTN),是为正向链式推理设计的——它们从目标出发,生成实现目标的动作。逆转这一过程需要枚举所有可能的目标并正向模拟,这在开放世界场景中计算上不可行。

LLM通过利用其预训练的世界知识绕过了这一障碍。核心机制是将动作序列编码为自然语言提示,并让模型生成最合理的目标。无需微调或少样本示例。模型内部表征——从数万亿文本token中学习而来——包含了动作与典型人类目标之间的丰富关联。例如,训练数据中“日历”、“航班”和“酒店”的共现与“旅行规划”高度相关。

多伦多大学和微软研究院的研究人员近期将这一方法形式化。他们推出了名为IntentBench的基准测试,包含50个多样化场景(如烹饪、购物、编程),每个场景有多个可能目标。GPT-4和Claude 3.5等LLM在零样本设置下实现了超过85%的准确率,而使用手工构建目标库的传统规划器仅为约60%。关键架构优势在于注意力机制,它允许模型权衡每个动作与推断目标的相关性,即使动作存在噪声或不完整。

一个相关的开源项目是GitHub上的GoalRec仓库(1.2k星标),它提供了一个使用蒸馏LLM(基于LLaMA-2-7B)的轻量级目标识别模型的PyTorch实现。该仓库包含针对IntentBench数据集的预训练权重,以及一个从浏览器日志进行实时目标推断的演示。作者报告称,与全规模GPT-4相比,推理延迟降低了40%,使其适合边缘部署。

数据表:IntentBench上的零样本目标识别准确率

| 模型 | 准确率 (%) | 延迟 (毫秒/次推理) | 是否需要目标库 |
|---|---|---|---|
| GPT-4 | 87.3 | 450 | 否 |
| Claude 3.5 Sonnet | 85.1 | 380 | 否 |
| LLaMA-2-7B (蒸馏) | 79.6 | 120 | 否 |
| 基于STRIPS的规划器 | 61.2 | 2100 | 是 (50个目标) |
| 基于HTN的规划器 | 58.9 | 3200 | 是 (50个目标) |

数据要点: LLM,即使是较小的蒸馏版本,在零样本设置下也显著优于传统规划器,且无需手动目标工程。全规模模型(GPT-4、Claude)的延迟权衡对于非实时应用是可接受的,而蒸馏模型则支持近实时推理。

关键参与者与案例研究

多家公司和研究机构正在积极推动这一前沿领域。微软研究院已将零样本目标识别集成到其Copilot生态系统中,使助手能够从跨Office 365应用的多步骤交互中推断用户意图。例如,如果用户打开包含销售数据的Excel表格,然后启动PowerPoint,Copilot可以推断出“创建销售演示文稿”的目标,并主动建议相关模板或图表。

Google DeepMind正在探索机器人领域的目标识别。他们的RT-2模型结合了视觉和语言,能够从手臂运动的视频中推断人类演示者的目标——例如,识别出伸手拿杯子意味着“倒水”的目标——无需任何显式编程。这是零样本溯因推理在物理世界中的直接应用。

Anthropic构建了一个以安全为中心的变体,称为Constitutional AI,它使用目标识别来检测用户行为是否可能指向有害目标(例如,反复请求密码重置指令)。这使得系统能够主动干预,该功能现已部署在他们的企业API中。

在初创公司方面,Adept AI(由前谷歌研究人员创立)正在构建一个通用的“动作模型”,将目标识别与动作执行相结合。他们的产品ACT-1可以观察用户在浏览器中的工作流程并推断目标(例如“填写此表单”),然后自动化剩余步骤。Adept在2023年B轮融资中筹集了3.5亿美元,表明投资者对意图驱动自动化的浓厚兴趣。

数据表:关键参与者及其方法

| 公司/团队 | 产品/模型 | 应用领域 | 目标识别方法 | 资金/规模 |
|---|---|---|---|---|
| 微软研究院 | Copilot (Office 365) | 生产力 | GPT-4零样本 | 不适用 (内部) |
| Google DeepMind | RT-2 | 机器人 | 视觉-语言模型 | 不适用 (研究) |
| Anthropic | Constitutional AI | 安全 | 零样本 + 宪法约束 | 不适用 (已部署) |
| Adept AI | ACT-1 | 浏览器自动化 | 自研动作模型 | 3.5亿美元 (B轮) |

更多来自 arXiv cs.AI

AI安全范式转向:为何“多元监控器”比“算力堆砌”更有效在金融、医疗和自动驾驶等高风险领域部署自主AI智能体的竞赛,暴露了一个关键盲点:当智能体以机器速度和规模运行时,如何可靠地监控其行为?传统观点认为,解决方案是训练一个更强大的单一监控模型——投入更多算力和数据,直到监控器变得无所不知。但越来信念引擎:让AI辩论中的立场转变可审计、可问责「信念引擎」是一个面向多智能体大语言模型的全新框架,旨在解决AI辩论中立场变化的关键不透明性问题。通过将信念视为带有证据权重的状态变量,它为每一次立场转变——无论是源于新证据、锚定偏差还是角色漂移——都赋予因果签名。这使得开发者能够配置智能多维剪枝:AI编程代理的Token浪费终结者编程代理中的“无效阅读”问题远比表面观察严重得多。这些代理通常将大部分Token预算用于读取与当前任务无关的代码文件。现有剪枝方法将所有相关性维度压缩为一个单一评分和一个单一转换矩阵,迫使模型在保留导入语句还是函数定义之间做出二元选择——即查看来源专题页arXiv cs.AI 已收录 339 篇文章

相关专题

large language models147 篇相关文章

时间归档

May 20261945 篇已发布文章

延伸阅读

心智理论基准测试:无法预测真实人机对话质量的“纸上谈兵”一项开创性研究颠覆了行业共识:提升语言模型的心智理论(ToM)分数,并不能直接转化为更优质的人机交互体验。研究者从静态的第三人称阅读理解测试转向第一人称、动态、开放式对话评估,发现了一个令人震惊的脱节:高ToM基准表现并不能预测模型在实际对AI学会“读心术”:潜在偏好学习如何重塑人机对齐一项全新研究框架让大语言模型能从极简交互中推断用户未言明的偏好,从被动执行指令转向主动理解意图。这标志着人机对齐的根本性转变,有望催生更直觉化、更个性化的AI代理。LLM上下文学习并非记忆或逻辑,而是一种动态混合机制一项基于图随机游走任务的新型因果研究表明,大语言模型在上下文学习中并非单纯依赖局部模式匹配或全局结构推理。相反,它们会根据序列长度和上下文线索,在两种策略间动态切换,这重塑了我们对LLM真正“思考”方式的理解。CreativityBench曝光AI致命短板:无法跳出思维定式一项名为CreativityBench的新基准测试揭示,即便是最先进的大语言模型,在创造性工具使用方面也表现糟糕——比如用鞋子当锤子、用围巾当绳子。这一发现挑战了AI接近人类智能的说法,并暴露出其在物体功能推理上的根本缺陷。

常见问题

这次模型发布“Zero-Shot Goal Recognition: How LLMs Are Decoding Human Intent Without Training”的核心内容是什么?

A new wave of research is demonstrating that large language models (LLMs) possess a remarkable ability to perform zero-shot goal recognition—inferring the underlying objective of a…

从“how does zero-shot goal recognition work in LLMs”看,这个模型发布为什么重要?

Zero-shot goal recognition is fundamentally an abductive reasoning problem: given a sequence of observed actions (e.g., 'open browser', 'search for flights', 'check calendar'), the system must infer the most likely goal…

围绕“zero-shot goal recognition vs traditional planning algorithms”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。