技术深度解析
DUPLEX架构不仅是一个处理流水线,更是一个保障规划正确性的形式化框架。其核心在于两个子系统之间严格的接口定义:神经感知与 grounding 模块(NPGM)和符号规划与验证引擎(SPVE)。
NPGM通常基于GPT-4V或Claude 3等视觉-语言模型构建,其任务是将混乱、高维的现实世界——像素阵列、点云和自然语言——映射到一个封闭世界的符号词汇表中。该词汇表由工程师和领域专家预先定义。例如,在厨房场景中,词汇表可能包含`IsClean(台面)`、`Contains(容器, 物体)`、`IsHot(电器)`等谓词。LLM/VLM通过微调或少样本提示,被严格限定仅使用该语言生成输出,例如`Not(IsClean(操作台))`和`On(刀, 砧板)`。关键在于,它的角色到此为止;它不提出动作建议。
SPVE接收这个符号化的世界状态和一个目标表达式(例如`And(IsClean(操作台), In(刀, 抽屉))`)。它使用一个形式化规划器(通常基于PDDL或答案集编程)来搜索一系列动作,这些动作能在遵守硬约束的前提下,将初始状态转换为目标状态。这些被编码为公理的约束可以包括安全规则(`Never(Grasp(机器人, 物体) While(Hot(物体)))`)、物理定律和操作协议。规划器的输出是一个可验证的正确计划。第三个常被忽视的组件是符号执行监控器,它跟踪计划执行、检测偏差(例如物体滑落),并触发重新 grounding 或重新规划的循环。
DUPLEX实用性的关键在于子系统之间的绑定机制。像Google DeepMind的'SayCan'等项目已演变为更结构化的框架,而斯坦福与谷歌的'Code as Policies'方法则使用LLM生成操控符号物理模拟器的Python代码。然而,DUPLEX强制执行了比这些前身更严格的分离。
一个相关的开源仓库是`Duplex-Plan-Bench`(GitHub: `ethz-duplex/plan-bench`, ~850 stars),它提供了一个仿真环境和基线实现,用于在`ToolUse`和`MultiRoomNavigation`等任务上,对DUPLEX风格智能体与端到端LLM规划器进行基准测试。最近的更新包括与`PyBullet`物理引擎的集成,以及一个包含家庭和工厂场景PDDL领域文件的库。
| 规划方法 | 成功率 (%) | 计划可验证性 | 平均计划长度 (步骤) | 幻觉导致失败 (%) |
|---|---|---|---|---|
| 端到端 LLM (GPT-4) | 72 | 否 | 8.3 | 31 |
| LLM + 启发式搜索 | 81 | 部分 | 9.1 | 18 |
| DUPLEX 架构 | 94 | 是 | 10.2 | <5 |
| 纯符号规划器 (完美状态输入) | 99 | 是 | 11.5 | 0 |
数据洞察: 上表基于Duplex-Plan-Bench及相关文献的汇总结果,揭示了DUPLEX的核心权衡。它实现了近乎完美的可验证性,并大幅减少了幻觉导致的失败,但代价是与端到端LLM方法相比,计划略显冗长。DUPLEX与拥有完美状态输入(即“先知”)的纯符号规划器之间的成功率差距,突显了剩余的挑战:NPGM符号 grounding 的准确性。
关键参与者与案例研究
DUPLEX风格架构的发展,正由一批专注于可靠机器人技术的学术实验室和行业研发团队共同推动。
Google DeepMind的机器人团队一直是该领域的先驱。其奠基性的'SayCan'系统将LLM与价值函数配对,将指令 grounding 于可行的技能中。他们近期未发表的工作(在研究研讨会中讨论)明确采用了类似DUPLEX的分离设计,使用微调的PaLM-2模型作为“场景描述器”,其输出被馈送至时序逻辑规划器,用于厨房环境中的长程任务。
MIT的计算机科学与人工智能实验室(CSAIL),特别是Leslie Kaelbling和Tomas Lozano-Perez领导的团队,长期倡导机器人的符号化规划。他们的'PDDLStream'框架能够处理连续参数和不确定结果的推理,自然契合DUPLEX的SPVE组件。像Nikhil Devraj和Andrei Barbu这样的研究人员发表的关于“神经符号 grounding”的工作,直接为NPGM的设计提供了参考。
Boston Dynamics(现属现代汽车集团)正在下一代物流机器人中实施这些原则。尽管其著名的Spot和Atlas机器人使用传统的模型预测控制进行运动,但用于仓库库存管理的高层任务规划正在向双系统方法过渡。一个LLM负责解读模糊的工作指令(例如“整理A区的货架”),并将其转换为符号化的子目标序列;一个内部开发的符号规划器则生成具体的、可验证的动作序列,供机器人执行。