技术深度解析
零样本目标识别本质上是一个溯因推理问题:给定一组观测到的动作序列(例如“打开浏览器”、“搜索航班”、“查看日历”),系统必须推断出最可能的目标(例如“预订假期”)。传统规划器,如STRIPS或分层任务网络(HTN),是为正向链式推理设计的——它们从目标出发,生成实现目标的动作。逆转这一过程需要枚举所有可能的目标并正向模拟,这在开放世界场景中计算上不可行。
LLM通过利用其预训练的世界知识绕过了这一障碍。核心机制是将动作序列编码为自然语言提示,并让模型生成最合理的目标。无需微调或少样本示例。模型内部表征——从数万亿文本token中学习而来——包含了动作与典型人类目标之间的丰富关联。例如,训练数据中“日历”、“航班”和“酒店”的共现与“旅行规划”高度相关。
多伦多大学和微软研究院的研究人员近期将这一方法形式化。他们推出了名为IntentBench的基准测试,包含50个多样化场景(如烹饪、购物、编程),每个场景有多个可能目标。GPT-4和Claude 3.5等LLM在零样本设置下实现了超过85%的准确率,而使用手工构建目标库的传统规划器仅为约60%。关键架构优势在于注意力机制,它允许模型权衡每个动作与推断目标的相关性,即使动作存在噪声或不完整。
一个相关的开源项目是GitHub上的GoalRec仓库(1.2k星标),它提供了一个使用蒸馏LLM(基于LLaMA-2-7B)的轻量级目标识别模型的PyTorch实现。该仓库包含针对IntentBench数据集的预训练权重,以及一个从浏览器日志进行实时目标推断的演示。作者报告称,与全规模GPT-4相比,推理延迟降低了40%,使其适合边缘部署。
数据表:IntentBench上的零样本目标识别准确率
| 模型 | 准确率 (%) | 延迟 (毫秒/次推理) | 是否需要目标库 |
|---|---|---|---|
| GPT-4 | 87.3 | 450 | 否 |
| Claude 3.5 Sonnet | 85.1 | 380 | 否 |
| LLaMA-2-7B (蒸馏) | 79.6 | 120 | 否 |
| 基于STRIPS的规划器 | 61.2 | 2100 | 是 (50个目标) |
| 基于HTN的规划器 | 58.9 | 3200 | 是 (50个目标) |
数据要点: LLM,即使是较小的蒸馏版本,在零样本设置下也显著优于传统规划器,且无需手动目标工程。全规模模型(GPT-4、Claude)的延迟权衡对于非实时应用是可接受的,而蒸馏模型则支持近实时推理。
关键参与者与案例研究
多家公司和研究机构正在积极推动这一前沿领域。微软研究院已将零样本目标识别集成到其Copilot生态系统中,使助手能够从跨Office 365应用的多步骤交互中推断用户意图。例如,如果用户打开包含销售数据的Excel表格,然后启动PowerPoint,Copilot可以推断出“创建销售演示文稿”的目标,并主动建议相关模板或图表。
Google DeepMind正在探索机器人领域的目标识别。他们的RT-2模型结合了视觉和语言,能够从手臂运动的视频中推断人类演示者的目标——例如,识别出伸手拿杯子意味着“倒水”的目标——无需任何显式编程。这是零样本溯因推理在物理世界中的直接应用。
Anthropic构建了一个以安全为中心的变体,称为Constitutional AI,它使用目标识别来检测用户行为是否可能指向有害目标(例如,反复请求密码重置指令)。这使得系统能够主动干预,该功能现已部署在他们的企业API中。
在初创公司方面,Adept AI(由前谷歌研究人员创立)正在构建一个通用的“动作模型”,将目标识别与动作执行相结合。他们的产品ACT-1可以观察用户在浏览器中的工作流程并推断目标(例如“填写此表单”),然后自动化剩余步骤。Adept在2023年B轮融资中筹集了3.5亿美元,表明投资者对意图驱动自动化的浓厚兴趣。
数据表:关键参与者及其方法
| 公司/团队 | 产品/模型 | 应用领域 | 目标识别方法 | 资金/规模 |
|---|---|---|---|---|
| 微软研究院 | Copilot (Office 365) | 生产力 | GPT-4零样本 | 不适用 (内部) |
| Google DeepMind | RT-2 | 机器人 | 视觉-语言模型 | 不适用 (研究) |
| Anthropic | Constitutional AI | 安全 | 零样本 + 宪法约束 | 不适用 (已部署) |
| Adept AI | ACT-1 | 浏览器自动化 | 自研动作模型 | 3.5亿美元 (B轮) |