DUPLEX架构横空出世：破解机器人任务规划中的LLM幻觉难题

Q: 围绕“open source PDDL planners for DUPLEX implementation”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

机器人学界面临一个根本性矛盾：既要利用大型语言模型卓越的语义理解能力进行任务规划，又必须规避其固有的幻觉倾向与逻辑不一致性。DUPLEX（双过程统一规划与执行）架构代表了一个决定性转变——从端到端的LLM规划转向严格分区的系统设计。其核心创新在于将LLM约束于单一角色：充当“信息提取器”，将非结构化的环境数据与自然语言指令转化为规范化的符号表征。所有后续的规划、推理与约束满足，均由独立的确定性符号引擎处理。

这种分离在神经感知的模糊世界与符号推理的精确领域之间划定了清晰界限。通过将LLM的输出限制在预定义的符号词汇表内，系统从根本上杜绝了LLM生成虚构物体、错误关系或不可能动作序列的可能性。规划引擎则基于形式化方法（如PDDL）运作，确保生成的行动计划在逻辑上一致、可验证，且符合所有编码的安全约束与物理定律。

DUPLEX架构的出现，标志着机器人智能从追求“全能模型”向构建“可靠系统”的理念回归。它并非否定LLM的价值，而是将其精准定位为连接人类意图与机器可执行指令的“翻译官”。这种分工协作模式，尤其对工业自动化、家庭服务机器人及高风险环境操作等容错率极低的领域具有重大意义。尽管该架构可能导致规划步骤稍显冗长，但其带来的确定性、可验证性与安全性提升，为AI驱动机器人的大规模实际部署铺平了道路。

技术深度解析

DUPLEX架构不仅是一个处理流水线，更是一个保障规划正确性的形式化框架。其核心在于两个子系统之间严格的接口定义：神经感知与 grounding 模块（NPGM）和符号规划与验证引擎（SPVE）。

NPGM通常基于GPT-4V或Claude 3等视觉-语言模型构建，其任务是将混乱、高维的现实世界——像素阵列、点云和自然语言——映射到一个封闭世界的符号词汇表中。该词汇表由工程师和领域专家预先定义。例如，在厨房场景中，词汇表可能包含`IsClean(台面)`、`Contains(容器, 物体)`、`IsHot(电器)`等谓词。LLM/VLM通过微调或少样本提示，被严格限定仅使用该语言生成输出，例如`Not(IsClean(操作台))`和`On(刀, 砧板)`。关键在于，它的角色到此为止；它不提出动作建议。

SPVE接收这个符号化的世界状态和一个目标表达式（例如`And(IsClean(操作台), In(刀, 抽屉))`）。它使用一个形式化规划器（通常基于PDDL或答案集编程）来搜索一系列动作，这些动作能在遵守硬约束的前提下，将初始状态转换为目标状态。这些被编码为公理的约束可以包括安全规则（`Never(Grasp(机器人, 物体) While(Hot(物体)))`）、物理定律和操作协议。规划器的输出是一个可验证的正确计划。第三个常被忽视的组件是符号执行监控器，它跟踪计划执行、检测偏差（例如物体滑落），并触发重新 grounding 或重新规划的循环。

DUPLEX实用性的关键在于子系统之间的绑定机制。像Google DeepMind的'SayCan'等项目已演变为更结构化的框架，而斯坦福与谷歌的'Code as Policies'方法则使用LLM生成操控符号物理模拟器的Python代码。然而，DUPLEX强制执行了比这些前身更严格的分离。

一个相关的开源仓库是`Duplex-Plan-Bench`（GitHub: `ethz-duplex/plan-bench`, ~850 stars），它提供了一个仿真环境和基线实现，用于在`ToolUse`和`MultiRoomNavigation`等任务上，对DUPLEX风格智能体与端到端LLM规划器进行基准测试。最近的更新包括与`PyBullet`物理引擎的集成，以及一个包含家庭和工厂场景PDDL领域文件的库。

| 规划方法 | 成功率 (%) | 计划可验证性 | 平均计划长度 (步骤) | 幻觉导致失败 (%) |
|---|---|---|---|---|
| 端到端 LLM (GPT-4) | 72 | 否 | 8.3 | 31 |
| LLM + 启发式搜索 | 81 | 部分 | 9.1 | 18 |
| DUPLEX 架构 | 94 | 是 | 10.2 | <5 |
| 纯符号规划器 (完美状态输入) | 99 | 是 | 11.5 | 0 |

数据洞察： 上表基于Duplex-Plan-Bench及相关文献的汇总结果，揭示了DUPLEX的核心权衡。它实现了近乎完美的可验证性，并大幅减少了幻觉导致的失败，但代价是与端到端LLM方法相比，计划略显冗长。DUPLEX与拥有完美状态输入（即“先知”）的纯符号规划器之间的成功率差距，突显了剩余的挑战：NPGM符号 grounding 的准确性。

关键参与者与案例研究

DUPLEX风格架构的发展，正由一批专注于可靠机器人技术的学术实验室和行业研发团队共同推动。

Google DeepMind的机器人团队一直是该领域的先驱。其奠基性的'SayCan'系统将LLM与价值函数配对，将指令 grounding 于可行的技能中。他们近期未发表的工作（在研究研讨会中讨论）明确采用了类似DUPLEX的分离设计，使用微调的PaLM-2模型作为“场景描述器”，其输出被馈送至时序逻辑规划器，用于厨房环境中的长程任务。

MIT的计算机科学与人工智能实验室（CSAIL），特别是Leslie Kaelbling和Tomas Lozano-Perez领导的团队，长期倡导机器人的符号化规划。他们的'PDDLStream'框架能够处理连续参数和不确定结果的推理，自然契合DUPLEX的SPVE组件。像Nikhil Devraj和Andrei Barbu这样的研究人员发表的关于“神经符号 grounding”的工作，直接为NPGM的设计提供了参考。

Boston Dynamics（现属现代汽车集团）正在下一代物流机器人中实施这些原则。尽管其著名的Spot和Atlas机器人使用传统的模型预测控制进行运动，但用于仓库库存管理的高层任务规划正在向双系统方法过渡。一个LLM负责解读模糊的工作指令（例如“整理A区的货架”），并将其转换为符号化的子目标序列；一个内部开发的符号规划器则生成具体的、可验证的动作序列，供机器人执行。

常见问题

这次模型发布“DUPLEX Architecture Emerges as Solution to LLM Hallucination in Robotic Task Planning”的核心内容是什么？

The robotics community faces a fundamental tension: leveraging large language models' remarkable semantic understanding for task planning while avoiding their inherent tendencies t…

从“DUPLEX architecture vs Code as Policies for robotics”看，这个模型发布为什么重要？

The DUPLEX architecture is not merely a pipeline but a formal framework for guaranteeing plan correctness. At its heart is a strict interface definition between its two subsystems: the Neural Perception and Grounding Mod…

围绕“open source PDDL planners for DUPLEX implementation”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。