技术深度解析
AGWM 的核心创新在于将能力预测器(affordance predictor)集成到世界模型的循环中。传统世界模型,例如 DreamerV3 或 TD-MPC2 中使用的模型,会学习一个潜在动力学模型,根据当前状态和行动预测下一个状态和奖励。其训练目标纯粹是预测性的:最小化预测的下一个状态与实际下一个状态之间的误差。当训练数据覆盖了所有相关前置条件时,这种方法效果良好;但当数据覆盖不足时,就会灾难性地失败。
AGWM 增加了一个二元能力分类器,它以当前状态和行动作为输入,输出该行动在该状态下“被允许”的概率。然后,世界模型会基于这个能力信号进行条件化。在训练过程中,能力预测器与动力学模型通过对比损失(contrastive loss)联合学习:正样本对(状态,行动)中的行动已知是可行的,负样本对中的行动则不可行。关键架构选择在于,能力预测器并非一个简单的分类器;它是一个必须泛化到未见状态的学得函数,因此本质上是一种因果模型。
一个关键的工程细节是对部分可观测性的处理。在许多现实场景中,智能体无法直接观测到所有相关的状态变量(例如,门是否上锁)。AGWM 通过使用循环状态估计器(例如 RNN 或 Transformer)来解决这一问题,该估计器维护对隐藏变量的信念。然后,能力预测器基于这个信念状态(而非原始观测)进行操作。这种方法类似于部分可观测马尔可夫决策过程(POMDP)中使用的思路,但 AGWM 使能力检查变得显式且可微分。
| 模型 | 因果混淆缓解 | 能力检查 | 训练目标 | 开源情况 |
|---|---|---|---|---|
| DreamerV3 | 无 | 否 | 预测性(下一个状态) | 是(GitHub: danijar/dreamerv3) |
| TD-MPC2 | 无 | 否 | 预测性(潜在动力学) | 是(GitHub: nicklashansen/tdmpc2) |
| AGWM(本文) | 显式能力约束 | 是,在模拟之前 | 能力 + 预测性 | 尚未(预计很快) |
| 因果世界模型(先前工作) | 通过因果图隐式实现 | 否 | 因果结构学习 | 部分 |
数据要点: AGWM 是首个将能力检查作为显式、可微分部分融入世界模型训练循环的方法,直接解决了先前最先进模型所忽略的一个已知失效模式。
关键参与者与案例研究
AGWM 论文源自加州大学伯克利分校(具体是伯克利人工智能研究实验室 BAIR)与 Google DeepMind 研究人员之间的合作。主要作者此前在强化学习中的因果推断以及世界模型领域有知名工作。虽然该论文仍处于预印本阶段,但其思想建立在机器人学中丰富的能力研究历史之上,特别是 J.J. Gibson 的工作以及后来 NVIDIA 和华盛顿大学的 Dieter Fox 教授等研究人员的实现。
已有几家公司正在探索类似概念:
- NVIDIA: 其 Isaac Sim 平台包含用于机器人训练的能力感知仿真。他们有一个专注于自动驾驶“因果世界模型”的研究小组,由 Sanja Fidler 博士领导。NVIDIA 的方法更侧重仿真,而 AGWM 提供了一种更轻量级、基于模型的替代方案。
- Google DeepMind: DeepMind 一直是世界模型领域的先驱(例如 Dreamer、MuZero)。AGWM 论文代表了其工作的自然演进。他们还大力投资于机器人学的“基于能力”的规划,如其 RT-2 和 AutoRT 模型所示。
- Covariant: 这家机器人初创公司在其 AI 拾放系统中使用了一种能力预测形式。他们的方法更偏经验主义(从数百万次真实世界拾取尝试中学习),而非基于模型,但目标相同:确保机器人只尝试物理上可能的行为。
- Physical Intelligence(π): 这家由 Sergey Levine 及其他著名机器人学家创立的隐秘初创公司,正在构建一个通用机器人基础模型。他们在“扩散策略”方面的工作通过学习可行行动的分布来隐式处理能力问题,但 AGWM 的显式检查可能提供更好的安全保障。
| 公司 | 方法 | 能力机制 | 状态 |
|---|---|---|---|
| NVIDIA | 基于仿真(Isaac Sim) | 从仿真数据中学习 | 生产(用于研究) |
| Google DeepMind | 基于模型(AGWM, Dreamer) | 显式分类器 | 研究 |
| Covariant | 经验主义(真实世界数据) | 隐式(从成功/失败中学习) | 生产 |
| Physical Intelligence | 扩散策略 | 隐式(行动分布) | 研究/隐秘 |
数据要点: AGWM 显式、基于模型的方法在主要参与者中是独一无二的。它提供了经验主义或基于仿真的方法无法比拟的理论安全保障,但在实际部署中可能更难扩展。