AGWM:让世界模型在行动前先问一句“可以吗?”

arXiv cs.AI May 2026
来源:arXiv cs.AIreinforcement learningembodied AI归档:May 2026
AGWM 带来范式转变:在模拟任何行动轨迹之前,世界模型必须先验证当前状态是否允许该行动。这种“先问可不可以”的方法,消除了困扰传统世界模型的因果混淆——它们常常把相关性误当作因果性。

传统世界模型存在一个根本缺陷:它们学习的是相关性,而非因果规则。如果训练数据集中显示“推门”经常导致“门开”,模型就会将其内化为一条普适规则,而忽略了关键前提——门必须未上锁。这种因果混淆在实际部署中会导致模型行为脆弱且不安全。AGWM(Affordance-Constrained World Model,能力约束世界模型)通过引入显式的能力检查(affordance check)来直接解决这一问题:在模拟任何轨迹之前,模型首先评估当前状态是否满足行动的“前置条件”——这一概念借鉴自机器人学和认知科学。如果能力条件不满足,行动就不会被模拟,从而有效防止模型学习到虚假的相关性。

技术深度解析

AGWM 的核心创新在于将能力预测器(affordance predictor)集成到世界模型的循环中。传统世界模型,例如 DreamerV3 或 TD-MPC2 中使用的模型,会学习一个潜在动力学模型,根据当前状态和行动预测下一个状态和奖励。其训练目标纯粹是预测性的:最小化预测的下一个状态与实际下一个状态之间的误差。当训练数据覆盖了所有相关前置条件时,这种方法效果良好;但当数据覆盖不足时,就会灾难性地失败。

AGWM 增加了一个二元能力分类器,它以当前状态和行动作为输入,输出该行动在该状态下“被允许”的概率。然后,世界模型会基于这个能力信号进行条件化。在训练过程中,能力预测器与动力学模型通过对比损失(contrastive loss)联合学习:正样本对(状态,行动)中的行动已知是可行的,负样本对中的行动则不可行。关键架构选择在于,能力预测器并非一个简单的分类器;它是一个必须泛化到未见状态的学得函数,因此本质上是一种因果模型。

一个关键的工程细节是对部分可观测性的处理。在许多现实场景中,智能体无法直接观测到所有相关的状态变量(例如,门是否上锁)。AGWM 通过使用循环状态估计器(例如 RNN 或 Transformer)来解决这一问题,该估计器维护对隐藏变量的信念。然后,能力预测器基于这个信念状态(而非原始观测)进行操作。这种方法类似于部分可观测马尔可夫决策过程(POMDP)中使用的思路,但 AGWM 使能力检查变得显式且可微分。

| 模型 | 因果混淆缓解 | 能力检查 | 训练目标 | 开源情况 |
|---|---|---|---|---|
| DreamerV3 | 无 | 否 | 预测性(下一个状态) | 是(GitHub: danijar/dreamerv3) |
| TD-MPC2 | 无 | 否 | 预测性(潜在动力学) | 是(GitHub: nicklashansen/tdmpc2) |
| AGWM(本文) | 显式能力约束 | 是,在模拟之前 | 能力 + 预测性 | 尚未(预计很快) |
| 因果世界模型(先前工作) | 通过因果图隐式实现 | 否 | 因果结构学习 | 部分 |

数据要点: AGWM 是首个将能力检查作为显式、可微分部分融入世界模型训练循环的方法,直接解决了先前最先进模型所忽略的一个已知失效模式。

关键参与者与案例研究

AGWM 论文源自加州大学伯克利分校(具体是伯克利人工智能研究实验室 BAIR)与 Google DeepMind 研究人员之间的合作。主要作者此前在强化学习中的因果推断以及世界模型领域有知名工作。虽然该论文仍处于预印本阶段,但其思想建立在机器人学中丰富的能力研究历史之上,特别是 J.J. Gibson 的工作以及后来 NVIDIA 和华盛顿大学的 Dieter Fox 教授等研究人员的实现。

已有几家公司正在探索类似概念:

- NVIDIA: 其 Isaac Sim 平台包含用于机器人训练的能力感知仿真。他们有一个专注于自动驾驶“因果世界模型”的研究小组,由 Sanja Fidler 博士领导。NVIDIA 的方法更侧重仿真,而 AGWM 提供了一种更轻量级、基于模型的替代方案。
- Google DeepMind: DeepMind 一直是世界模型领域的先驱(例如 Dreamer、MuZero)。AGWM 论文代表了其工作的自然演进。他们还大力投资于机器人学的“基于能力”的规划,如其 RT-2 和 AutoRT 模型所示。
- Covariant: 这家机器人初创公司在其 AI 拾放系统中使用了一种能力预测形式。他们的方法更偏经验主义(从数百万次真实世界拾取尝试中学习),而非基于模型,但目标相同:确保机器人只尝试物理上可能的行为。
- Physical Intelligence(π): 这家由 Sergey Levine 及其他著名机器人学家创立的隐秘初创公司,正在构建一个通用机器人基础模型。他们在“扩散策略”方面的工作通过学习可行行动的分布来隐式处理能力问题,但 AGWM 的显式检查可能提供更好的安全保障。

| 公司 | 方法 | 能力机制 | 状态 |
|---|---|---|---|
| NVIDIA | 基于仿真(Isaac Sim) | 从仿真数据中学习 | 生产(用于研究) |
| Google DeepMind | 基于模型(AGWM, Dreamer) | 显式分类器 | 研究 |
| Covariant | 经验主义(真实世界数据) | 隐式(从成功/失败中学习) | 生产 |
| Physical Intelligence | 扩散策略 | 隐式(行动分布) | 研究/隐秘 |

数据要点: AGWM 显式、基于模型的方法在主要参与者中是独一无二的。它提供了经验主义或基于仿真的方法无法比拟的理论安全保障,但在实际部署中可能更难扩展。

更多来自 arXiv cs.AI

Agentick统一基准终结AI智能体评估的巴别塔时代多年来,AI智能体研究一直饱受“巴别塔”困境的困扰:强化学习智能体在Atari游戏上得分,大语言模型智能体处理网页任务,视觉语言模型智能体操控机械臂——各自使用不同的环境、指标和成功标准。Agentick通过引入一个单一、严谨的基准测试,彻LLM“短视规划”真相曝光:为何AI只能看到三步之内一支研究团队开发出了一种创新技术,能将大型语言模型(LLM)的推理过程逆向工程为显式的搜索树。通过分析这些树的分支结构,他们发现,包括经过思维链(CoT)微调在内的最先进推理模型,都存在严重的“短视规划”偏差。这些模型对未来分支的探索深度仅CASCADE打破大模型学习僵局:部署即进化时代来临大语言模型长期受困于一个根本性局限:一旦部署,学习即停止。模型被冻结在训练时的知识中,无法从后续交互中吸收新信息。CASCADE的部署时学习(DTL)范式直接回应了这一痛点。通过采用基于案例的持续适应机制,CASCADE让大语言模型在运行环查看来源专题页arXiv cs.AI 已收录 294 篇文章

相关专题

reinforcement learning67 篇相关文章embodied AI126 篇相关文章

时间归档

May 20261212 篇已发布文章

延伸阅读

世界行动模型:AI如何通过“想象”学习操控现实一种名为世界行动模型(WAM)的全新架构范式,正在从根本上改变AI智能体的训练方式。与传统世界模型仅预测未来状态不同,WAM迫使AI推理导致状态转变的具体行动,将“能动性”直接嵌入其想象过程。这一突破有望催生能力更强的机器人与自主系统。Agentick统一基准终结AI智能体评估的巴别塔时代Agentick——一个开创性的统一基准测试框架,将强化学习、大语言模型、视觉语言模型、混合模型乃至人类智能体置于同一序列决策任务的天平上。这一框架终结了碎片化评估的混乱局面,有望重塑AI智能体的研究与商业落地格局。Weblica:为视觉网络智能体打造无限训练宇宙视觉网络智能体长期受困于数据瓶颈:有限的离线轨迹与稀疏的模拟环境。Weblica的“网页克隆”框架彻底打破这一限制,生成无限、可复现的训练宇宙,让强化学习智能体在无数逼真的网络场景中探索、失败与学习。SAVOIR框架突破:博弈论如何教会AI真正的对话智能名为SAVOIR的新型AI框架正在攻克对话AI最顽固的挑战:理解对话中哪些具体话语促成了成功的社交结果。通过借用合作博弈论中的沙普利值,研究者创建了一套精确的奖励归因系统,将人类互动的“社交演算”传授给AI,这标志着一个根本性转变。

常见问题

这次模型发布“AGWM: Teaching World Models to Ask 'Can I?' Before Acting”的核心内容是什么?

Traditional world models suffer from a fundamental flaw: they learn correlations, not causal rules. If a training dataset shows that 'pushing a door' frequently leads to 'door open…

从“AGWM vs DreamerV3 comparison”看,这个模型发布为什么重要?

AGWM's core innovation is the integration of an affordance predictor into the world model loop. Traditional world models, such as those used in DreamerV3 or TD-MPC2, learn a latent dynamics model that predicts the next s…

围绕“affordance learning for robot manipulation”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。