AGWM:让世界模型在行动前先问一句“可以吗?”

arXiv cs.AI May 2026
来源:arXiv cs.AIreinforcement learningembodied AI归档:May 2026
AGWM 带来范式转变:在模拟任何行动轨迹之前,世界模型必须先验证当前状态是否允许该行动。这种“先问可不可以”的方法,消除了困扰传统世界模型的因果混淆——它们常常把相关性误当作因果性。

传统世界模型存在一个根本缺陷:它们学习的是相关性,而非因果规则。如果训练数据集中显示“推门”经常导致“门开”,模型就会将其内化为一条普适规则,而忽略了关键前提——门必须未上锁。这种因果混淆在实际部署中会导致模型行为脆弱且不安全。AGWM(Affordance-Constrained World Model,能力约束世界模型)通过引入显式的能力检查(affordance check)来直接解决这一问题:在模拟任何轨迹之前,模型首先评估当前状态是否满足行动的“前置条件”——这一概念借鉴自机器人学和认知科学。如果能力条件不满足,行动就不会被模拟,从而有效防止模型学习到虚假的相关性。

技术深度解析

AGWM 的核心创新在于将能力预测器(affordance predictor)集成到世界模型的循环中。传统世界模型,例如 DreamerV3 或 TD-MPC2 中使用的模型,会学习一个潜在动力学模型,根据当前状态和行动预测下一个状态和奖励。其训练目标纯粹是预测性的:最小化预测的下一个状态与实际下一个状态之间的误差。当训练数据覆盖了所有相关前置条件时,这种方法效果良好;但当数据覆盖不足时,就会灾难性地失败。

AGWM 增加了一个二元能力分类器,它以当前状态和行动作为输入,输出该行动在该状态下“被允许”的概率。然后,世界模型会基于这个能力信号进行条件化。在训练过程中,能力预测器与动力学模型通过对比损失(contrastive loss)联合学习:正样本对(状态,行动)中的行动已知是可行的,负样本对中的行动则不可行。关键架构选择在于,能力预测器并非一个简单的分类器;它是一个必须泛化到未见状态的学得函数,因此本质上是一种因果模型。

一个关键的工程细节是对部分可观测性的处理。在许多现实场景中,智能体无法直接观测到所有相关的状态变量(例如,门是否上锁)。AGWM 通过使用循环状态估计器(例如 RNN 或 Transformer)来解决这一问题,该估计器维护对隐藏变量的信念。然后,能力预测器基于这个信念状态(而非原始观测)进行操作。这种方法类似于部分可观测马尔可夫决策过程(POMDP)中使用的思路,但 AGWM 使能力检查变得显式且可微分。

| 模型 | 因果混淆缓解 | 能力检查 | 训练目标 | 开源情况 |
|---|---|---|---|---|
| DreamerV3 | 无 | 否 | 预测性(下一个状态) | 是(GitHub: danijar/dreamerv3) |
| TD-MPC2 | 无 | 否 | 预测性(潜在动力学) | 是(GitHub: nicklashansen/tdmpc2) |
| AGWM(本文) | 显式能力约束 | 是,在模拟之前 | 能力 + 预测性 | 尚未(预计很快) |
| 因果世界模型(先前工作) | 通过因果图隐式实现 | 否 | 因果结构学习 | 部分 |

数据要点: AGWM 是首个将能力检查作为显式、可微分部分融入世界模型训练循环的方法,直接解决了先前最先进模型所忽略的一个已知失效模式。

关键参与者与案例研究

AGWM 论文源自加州大学伯克利分校(具体是伯克利人工智能研究实验室 BAIR)与 Google DeepMind 研究人员之间的合作。主要作者此前在强化学习中的因果推断以及世界模型领域有知名工作。虽然该论文仍处于预印本阶段,但其思想建立在机器人学中丰富的能力研究历史之上,特别是 J.J. Gibson 的工作以及后来 NVIDIA 和华盛顿大学的 Dieter Fox 教授等研究人员的实现。

已有几家公司正在探索类似概念:

- NVIDIA: 其 Isaac Sim 平台包含用于机器人训练的能力感知仿真。他们有一个专注于自动驾驶“因果世界模型”的研究小组,由 Sanja Fidler 博士领导。NVIDIA 的方法更侧重仿真,而 AGWM 提供了一种更轻量级、基于模型的替代方案。
- Google DeepMind: DeepMind 一直是世界模型领域的先驱(例如 Dreamer、MuZero)。AGWM 论文代表了其工作的自然演进。他们还大力投资于机器人学的“基于能力”的规划,如其 RT-2 和 AutoRT 模型所示。
- Covariant: 这家机器人初创公司在其 AI 拾放系统中使用了一种能力预测形式。他们的方法更偏经验主义(从数百万次真实世界拾取尝试中学习),而非基于模型,但目标相同:确保机器人只尝试物理上可能的行为。
- Physical Intelligence(π): 这家由 Sergey Levine 及其他著名机器人学家创立的隐秘初创公司,正在构建一个通用机器人基础模型。他们在“扩散策略”方面的工作通过学习可行行动的分布来隐式处理能力问题,但 AGWM 的显式检查可能提供更好的安全保障。

| 公司 | 方法 | 能力机制 | 状态 |
|---|---|---|---|
| NVIDIA | 基于仿真(Isaac Sim) | 从仿真数据中学习 | 生产(用于研究) |
| Google DeepMind | 基于模型(AGWM, Dreamer) | 显式分类器 | 研究 |
| Covariant | 经验主义(真实世界数据) | 隐式(从成功/失败中学习) | 生产 |
| Physical Intelligence | 扩散策略 | 隐式(行动分布) | 研究/隐秘 |

数据要点: AGWM 显式、基于模型的方法在主要参与者中是独一无二的。它提供了经验主义或基于仿真的方法无法比拟的理论安全保障,但在实际部署中可能更难扩展。

更多来自 arXiv cs.AI

AlgoEvolve:LLM驱动交易进化,量化金融迎来达尔文式变革AINews独家发现了一个名为AlgoEvolve的创新框架,它利用大语言模型(LLM)作为语义变异算子,驱动算法交易策略的元进化。与依赖人类直觉和手动编码的传统量化策略开发不同,AlgoEvolve将交易程序视为不断进化的有机体。LLM扮AI安全致命缺陷:顺从人格可一键关闭大模型拒绝机制多年来,AI安全界一直假设模型拒绝有害提示的能力是一个独立、经过专门训练的安全模块——一个通过人类反馈强化学习(RLHF)和宪法AI构建的防火墙。最新研究彻底粉碎了这一假设。通过干预两个广泛使用的开源指令微调模型——Qwen2.5-7B-ISGPO打破模仿瓶颈:大模型推理新范式诞生多年来,推理蒸馏领域一直困于一个根本性缺陷:模型通过模仿专家轨迹来学习,记住的是具体的解题步骤,而非可迁移的推理能力。这种“知其然,不知其所以然”的方法,导致模型在面对新问题时性能急剧下降。策略引导策略优化(SGPO)直接瞄准这一瓶颈,将训查看来源专题页arXiv cs.AI 已收录 517 篇文章

相关专题

reinforcement learning102 篇相关文章embodied AI197 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

世界行动模型:AI如何通过“想象”学习操控现实一种名为世界行动模型(WAM)的全新架构范式,正在从根本上改变AI智能体的训练方式。与传统世界模型仅预测未来状态不同,WAM迫使AI推理导致状态转变的具体行动,将“能动性”直接嵌入其想象过程。这一突破有望催生能力更强的机器人与自主系统。数字孪生+强化学习:AI如何模拟治疗轨迹,实现临床实时优化一种全新的临床决策支持框架,将患者专属数字孪生与强化学习深度融合,模拟不同治疗路径并动态优化诊疗方案。这标志着AI从静态、基于人群的模型,向持续自适应、由模拟驱动的临床优化范式转变。AI工作代理从43%到89%:安全与能力同步跃升短短两年间,AI工作代理从任务完成率仅43%的实验工具,进化为准确率达89%的企业级系统,同时将有害行为从26%骤降至2.5%。能力与安全的同步飞跃,标志着自主商业运营进入全新时代。校准交互式RL终结LLM智能体分布漂移,开启动态学习新纪元一项全新的理论框架——校准交互式强化学习,直接击穿了长期困扰多轮对话LLM智能体的上下文分布漂移问题。通过将模拟器行为与真实用户分布对齐,该方法将静态、脚本化的训练转变为动态、自适应的学习过程。

常见问题

这次模型发布“AGWM: Teaching World Models to Ask 'Can I?' Before Acting”的核心内容是什么?

Traditional world models suffer from a fundamental flaw: they learn correlations, not causal rules. If a training dataset shows that 'pushing a door' frequently leads to 'door open…

从“AGWM vs DreamerV3 comparison”看,这个模型发布为什么重要?

AGWM's core innovation is the integration of an affordance predictor into the world model loop. Traditional world models, such as those used in DreamerV3 or TD-MPC2, learn a latent dynamics model that predicts the next s…

围绕“affordance learning for robot manipulation”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。