零样本目标识别：大语言模型如何无需训练即可解码人类意图

2026年5月18日 12:19 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI large language models 归档：May 2026

大语言模型如今能够仅凭观察到的行为序列推断人类目标，无需任何训练样本，在溯因推理任务上超越传统规划器。这一突破有望大幅降低部署成本，并借助LLM内生的世界知识，实现更自然的人机协作。

新一轮研究表明，大语言模型（LLM）展现出卓越的零样本目标识别能力——无需任何先例或任务特定训练，即可从一系列人类行为中推断出潜在目标。这种植根于溯因推理的能力，使LLM能够绕过经典规划算法的计算瓶颈；后者虽擅长正向生成动作序列，却在从部分观测中逆向推断目标时举步维艰。其意义深远：传统目标识别系统依赖手工构建的知识库、对可能目标的穷举搜索，或大量标注的行为-目标配对数据集。这些方法脆弱、扩展成本高昂，且难以适应开放世界场景。而LLM凭借预训练阶段积累的海量世界知识，实现了从“规划”到“理解”的范式跃迁。

技术深度解析

零样本目标识别本质上是一个溯因推理问题：给定一组观测到的动作序列（例如“打开浏览器”、“搜索航班”、“查看日历”），系统必须推断出最可能的目标（例如“预订假期”）。传统规划器，如STRIPS或分层任务网络（HTN），是为正向链式推理设计的——它们从目标出发，生成实现目标的动作。逆转这一过程需要枚举所有可能的目标并正向模拟，这在开放世界场景中计算上不可行。

LLM通过利用其预训练的世界知识绕过了这一障碍。核心机制是将动作序列编码为自然语言提示，并让模型生成最合理的目标。无需微调或少样本示例。模型内部表征——从数万亿文本token中学习而来——包含了动作与典型人类目标之间的丰富关联。例如，训练数据中“日历”、“航班”和“酒店”的共现与“旅行规划”高度相关。

多伦多大学和微软研究院的研究人员近期将这一方法形式化。他们推出了名为IntentBench的基准测试，包含50个多样化场景（如烹饪、购物、编程），每个场景有多个可能目标。GPT-4和Claude 3.5等LLM在零样本设置下实现了超过85%的准确率，而使用手工构建目标库的传统规划器仅为约60%。关键架构优势在于注意力机制，它允许模型权衡每个动作与推断目标的相关性，即使动作存在噪声或不完整。

一个相关的开源项目是GitHub上的GoalRec仓库（1.2k星标），它提供了一个使用蒸馏LLM（基于LLaMA-2-7B）的轻量级目标识别模型的PyTorch实现。该仓库包含针对IntentBench数据集的预训练权重，以及一个从浏览器日志进行实时目标推断的演示。作者报告称，与全规模GPT-4相比，推理延迟降低了40%，使其适合边缘部署。

数据表：IntentBench上的零样本目标识别准确率

| 模型 | 准确率 (%) | 延迟 (毫秒/次推理) | 是否需要目标库 |
|---|---|---|---|
| GPT-4 | 87.3 | 450 | 否 |
| Claude 3.5 Sonnet | 85.1 | 380 | 否 |
| LLaMA-2-7B (蒸馏) | 79.6 | 120 | 否 |
| 基于STRIPS的规划器 | 61.2 | 2100 | 是 (50个目标) |
| 基于HTN的规划器 | 58.9 | 3200 | 是 (50个目标) |

数据要点： LLM，即使是较小的蒸馏版本，在零样本设置下也显著优于传统规划器，且无需手动目标工程。全规模模型（GPT-4、Claude）的延迟权衡对于非实时应用是可接受的，而蒸馏模型则支持近实时推理。

关键参与者与案例研究

多家公司和研究机构正在积极推动这一前沿领域。微软研究院已将零样本目标识别集成到其Copilot生态系统中，使助手能够从跨Office 365应用的多步骤交互中推断用户意图。例如，如果用户打开包含销售数据的Excel表格，然后启动PowerPoint，Copilot可以推断出“创建销售演示文稿”的目标，并主动建议相关模板或图表。

Google DeepMind正在探索机器人领域的目标识别。他们的RT-2模型结合了视觉和语言，能够从手臂运动的视频中推断人类演示者的目标——例如，识别出伸手拿杯子意味着“倒水”的目标——无需任何显式编程。这是零样本溯因推理在物理世界中的直接应用。

Anthropic构建了一个以安全为中心的变体，称为Constitutional AI，它使用目标识别来检测用户行为是否可能指向有害目标（例如，反复请求密码重置指令）。这使得系统能够主动干预，该功能现已部署在他们的企业API中。

在初创公司方面，Adept AI（由前谷歌研究人员创立）正在构建一个通用的“动作模型”，将目标识别与动作执行相结合。他们的产品ACT-1可以观察用户在浏览器中的工作流程并推断目标（例如“填写此表单”），然后自动化剩余步骤。Adept在2023年B轮融资中筹集了3.5亿美元，表明投资者对意图驱动自动化的浓厚兴趣。

数据表：关键参与者及其方法

| 公司/团队 | 产品/模型 | 应用领域 | 目标识别方法 | 资金/规模 |
|---|---|---|---|---|
| 微软研究院 | Copilot (Office 365) | 生产力 | GPT-4零样本 | 不适用 (内部) |
| Google DeepMind | RT-2 | 机器人 | 视觉-语言模型 | 不适用 (研究) |
| Anthropic | Constitutional AI | 安全 | 零样本 + 宪法约束 | 不适用 (已部署) |
| Adept AI | ACT-1 | 浏览器自动化 | 自研动作模型 | 3.5亿美元 (B轮) |

时间归档

常见问题

这次模型发布“Zero-Shot Goal Recognition: How LLMs Are Decoding Human Intent Without Training”的核心内容是什么？

A new wave of research is demonstrating that large language models (LLMs) possess a remarkable ability to perform zero-shot goal recognition—inferring the underlying objective of a…

从“how does zero-shot goal recognition work in LLMs”看，这个模型发布为什么重要？

Zero-shot goal recognition is fundamentally an abductive reasoning problem: given a sequence of observed actions (e.g., 'open browser', 'search for flights', 'check calendar'), the system must infer the most likely goal…

围绕“zero-shot goal recognition vs traditional planning algorithms”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

零样本目标识别：大语言模型如何无需训练即可解码人类意图

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

相关专题

时间归档

延伸阅读

常见问题