技术深度解析
面向对象世界模型本质上是一个遵循面向对象编程原则的计算框架。环境被解构为一组对象类(如`杯子`、`液体`、`桌子`、`机械臂`)。每个类的实例都具有由其属性定义的持久状态,并能通过调用其方法(通常代表物理动作或交互)经历状态变化。
架构与表征: 典型的OOWM架构包含三层:
1. 感知-对象映射器: 该模块(通常是视觉模型或传感器融合系统)对原始感知输入(像素、点云)进行分割,并在世界模型中实例化或更新对应对象。MIT CSAIL的3D-OVS等项目专注于开放词汇3D场景分割,以填充此类模型。
2. 对象关系图: OOWM的核心。对象是节点;边代表关系(`置于顶部`、`包含`、`连接至`)。该图是动态的,每次行动后更新。研究者正探索使用PyReason或修改版Neo4j等工具来管理这种具备时序推理能力的符号图。
3. 模拟与规划引擎: 该组件在图谱上执行“代码”。给定一个目标(如`杯子.已装满 == 真`),规划器(如经典PDDL规划器或学习得到的策略)会编排方法调用序列(`拿起(水壶)`、`倾倒(水壶, 杯子)`)。关键在于,它能以“干运行”模式执行这些序列,利用附加于每个方法的简化物理模型或学习得到的转移模型来预测下一世界状态,而无需在现实世界中行动。
关键算法: 对象方法的转移模型是主要研究焦点。部分项目使用硬编码物理规则(例如,调用`倾倒`方法时,源液体体积减少,目标液体体积增加),前沿工作则涉及学习得到的神经转移模型。DeepMind的PlaNet或Dreamer架构正被适配用于预测对象状态变化。另一关键算法是关系推理——确定哪些对象的方法会受到某个动作影响,从而避免检查所有对象带来的组合爆炸。
性能与基准测试: 评估OOWM需超越语言基准,转向物理推理任务。用于物理谜题解决的PHYRE基准和用于长程家庭任务的BEHAVIOR基准正成为标准。早期结果显示,在需要多步对象操作和状态跟踪的任务上,基于OOWM的智能体显著优于纯LLM智能体。
| 方法 | BEHAVIOR成功率(清洁厨房) | 规划延迟(毫秒) | 状态跟踪准确率 |
|--------------|--------------------------------------------|---------------------------|-----------------------------|
| LLM (GPT-4) + ReAct | 22% | 1200 | 61% |
| OOWM (符号式) | 58% | 85 | 94% |
| OOWM (神经-符号混合) | 45% | 350 | 88% |
| 端到端强化学习 | 31% | 50 | 72% |
数据启示: 符号式OOWM提供了卓越的可靠性和状态跟踪能力,这对安全关键任务至关重要,但可能对感知错误较为脆弱。神经-符号混合模型以部分精度换取鲁棒性。纯LLM虽然灵活,但在保持长程物理推理一致性方面表现不佳。
关键参与者与案例研究
该领域由认识到LLM在具身性方面局限性的学术实验室和AI巨头共同推动。
学术先驱:
* 斯坦福视觉与学习实验室: 其在StructFormer和Socratic Models上的工作探索如何将语言模型锚定于从视觉提取的、以对象为中心的结构化表征中,明确主张将语言知识与几何/物理推理分离。
* MIT CSAIL: Leslie Kaelbling和Tomás Lozano-Pérez等研究者长期倡导机器人符号规划。当前项目研究如何将现代感知技术与这些经典框架整合,创建深度学习处理感知、符号系统处理规划的混合系统。
* 加州大学伯克利分校BAIR: 由Sergey Levine领导的Open-X Embodiment合作项目提供了海量机器人轨迹数据集。虽非纯粹OOWM,但它推动了以对象为中心的行动策略学习研究,这是对自上而下OOWM范式的自下而上补充。
行业实践:
* Google DeepMind的RT-2与OpenVLA: 尽管这些是视觉-语言-动作模型,内部研究文件显示其正积极探索Transformer架构内的“对象标记化”,这是迈向隐式对象模型的一步。其SayCan项目早期展示了将LLM的功能知识与机器人原始技能库连接起来,是OOWM的概念先驱。
* Covariant: 由Pieter Abbeel等人创立的机器人初创公司,强调“能看、能思、能行的AI”。其技术栈虽未公开宣称采用OOWM,但其对可组合、可推理的表示学习的关注,与对象中心化世界模型的核心精神高度一致。