Planet:谷歌潜在动力学模型,或将重塑基于模型的强化学习格局

GitHub May 2026
⭐ 1251
来源:GitHub归档:May 2026
谷歌研究院推出的Planet模型,通过变分推断与循环神经网络从原始像素中学习紧凑的潜在状态表征,在部分可观测环境中实现样本高效的规划。该方法将模型预测控制与学习到的动力学相结合,攻克高维控制任务,为强化学习开辟了新路径。

谷歌研究院发布了Planet,一种潜在动力学模型,能够直接从像素观测中进行规划。其核心创新在于将变分推断与循环神经网络结合,将高维视觉输入压缩至紧凑的潜在状态空间,进而通过模型预测控制(MPC)为动作规划奠定基础。这一架构使智能体无需显式的全状态模拟器即可推理未来结果,相比无模型强化学习方法,样本效率显著提升。在实际应用中,Planet在DeepMind Control Suite等连续控制基准测试中表现强劲,其样本效率往往能与甚至超越最先进的无模型算法。

技术深度解析

Planet的架构堪称控制领域概率建模的典范。其核心在于学习一个潜在动力学模型,该模型在压缩表征空间而非原始像素空间中运行。系统由三个关键组件构成:

1. 编码器/解码器:一个卷积神经网络(CNN),将原始图像观测 \(o_t\) 映射为随机潜在状态 \(z_t\);以及一个转置CNN解码器,从潜在状态重建图像。这本质上是标准变分自编码器(VAE)的机制,但有一个关键区别:潜在状态并非静态,而是随时间演化。

2. 循环状态空间模型(RSSM):这是Planet的核心。RSSM维护一个确定性循环状态 \(h_t\)(通过GRU或LSTM实现),该状态利用前一个潜在状态 \(z_{t-1}\) 和动作 \(a_{t-1}\) 进行更新。从这一确定性状态出发,模型预测下一个潜在状态 \(z_t\) 的随机先验分布。随后,利用实际观测 \(o_t\) 计算后验分布。RSSM由此将确定性时间动力学与随机不确定性分离,使模型能够同时捕捉环境中的可预测模式与不可约的随机性。

3. 奖励与折扣预测器:小型神经网络,从潜在状态预测即时奖励和折扣因子(用于回合制任务)。这些预测器与模型的其他部分联合训练。

训练目标是一种证据下界(ELBO)形式,平衡了重建精度(像素对数似然)、奖励预测精度以及潜在状态先验与后验之间的KL散度。这确保了潜在空间既能预测未来观测,又足够紧凑以支持规划。

通过MPC进行规划:在测试阶段,Planet使用交叉熵方法(CEM)在潜在空间中进行规划。智能体从高斯分布中采样动作序列,通过已学习的动力学模型滚动预测累积奖励,并迭代优化动作分布,使其趋向于高奖励轨迹。这比无模型方法样本效率高得多,因为智能体无需与真实环境交互即可“想象”数千条轨迹。

基准性能:原始Planet论文在DeepMind Control Suite(例如Cheetah Run、Walker Walk、Finger Spin)上报告了结果。下表将其样本效率与无模型基线进行了比较:

| 环境 | Planet(10万步) | SAC(10万步) | D4PG(10万步) |
|---|---|---|---|
| Cheetah Run | 580 ± 130 | 350 ± 60 | 210 ± 40 |
| Walker Walk | 620 ± 110 | 400 ± 80 | 280 ± 50 |
| Finger Spin | 720 ± 90 | 550 ± 70 | 310 ± 60 |

数据要点:在相同的10万次环境交互预算下,Planet获得了显著高于SAC和D4PG的分数,展现出明显的样本效率优势。Planet的误差范围更大,反映了学习模型的随机性,但平均性能始终更优。

GitHub相关性:官方仓库(google-research/planet)仍是参考实现。尽管代码库未积极维护,但它已催生了许多分支和衍生项目。值得注意的是,Dreamer系列(同样来自谷歌)直接从Planet演化而来,用学习到的策略取代了MPC规划器,实现了更高的效率。RSSM架构本身已被后续许多工作采用。

关键参与者与案例研究

谷歌研究院(DeepMind)是Planet的主要推动者,主要作者包括Danijar Hafner、Timothy Lillicrap等人。Hafner随后开发了Dreamer和DreamerV2,用学习到的演员-评论家取代了CEM规划器,在Atari游戏上取得了最先进的结果。从Planet到Dreamer的演变展示了一条清晰的研究轨迹:首先学习一个好的世界模型,然后完全在该模型内部训练策略。

竞争方法

| 模型 | 规划器类型 | 样本效率 | Atari性能 | GitHub星标 |
|---|---|---|---|---|
| Planet | CEM(MPC) | 高 | 不适用(连续控制) | ~1,250 |
| DreamerV2 | 学习型演员-评论家 | 非常高 | 人类基线的637% | ~3,500 |
| TD-MPC | CEM + 时间差分 | 高 | 不适用(连续控制) | ~800 |
| MuZero | MCTS + 学习模型 | 非常高 | 超人类水平 | ~6,000 |

数据要点:DreamerV2和MuZero在样本效率和最终性能上均已超越Planet,但它们直接建立在Planet开创的RSSM和潜在动力学概念之上。Planet的遗产是基础性的,而非终点。

案例研究:机器人操作:加州大学伯克利分校和谷歌机器人的研究人员已将类似Planet的潜在动力学模型应用于真实世界的机器人操作任务。例如,一个学习推积木的机械臂可以使用类似Planet的模型在潜在空间中规划抓取,从而减少真实世界的试验次数。

更多来自 GitHub

Determined AI:重塑深度学习基础设施的开源MLOps平台Determined AI是一个开源深度学习训练平台,旨在解决大规模模型开发中的基础设施挑战。该平台最初由Determined AI公司(2021年被HPE收购)开发,提供分布式训练、超参数优化、实验管理和模型注册的统一接口。其核心技术亮点LazyCodex:破解AI代码库记忆危机的开源智能体框架开源AI智能体领域竞争激烈,但LazyCodex(代码仓库:code-yeongyu/lazycodex)正通过直接解决基于大语言模型(LLM)的编码智能体的致命弱点——在庞大、多文件的代码库中无法保持连贯上下文——而开辟出独特的细分赛道。Spatie Laravel MediaLibrary:重塑 Laravel CMS 的文件管理利器Spatie 的 Laravel MediaLibrary 包解决了一个看似简单实则复杂的问题:将任意文件(图片、PDF、视频)与 Eloquent 模型干净地关联,同时处理转换、响应式图片和多磁盘存储。其流行(6,148 颗星标,每日活跃查看来源专题页GitHub 已收录 3205 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

SimCLRv2:谷歌如何将自监督学习打造成半监督学习的超级引擎谷歌的 SimCLRv2 重新定义了半监督学习,它用铁证表明:更大的自监督模型是更强的学习者。本文将深入剖析其架构、数据增强的关键作用,并揭示为何这一框架对于深陷海量无标注数据、却极度缺乏标签的行业而言,是一场颠覆性的变革。MaskGIT:谷歌双向Transformer如何重写图像生成速度谷歌研究院正式开源MaskGIT,一款基于JAX的掩码图像生成模型,彻底颠覆了自回归生成的传统范式。通过双向Transformer与迭代掩码预测,它能在极短时间内生成高分辨率图像,且质量毫不妥协——这是从串行解码到并行解码的范式革命。提示调优:悄然重塑AI效率的微型技术Google Research 于2021年提出的提示调优(Prompt Tuning)证明,向冻结的语言模型添加一组可学习的“软提示”令牌,即可媲美全参数微调的性能。这项技术已成为参数高效微调(PEFT)的基石,让大规模模型能以极低计算成DayDreamer:让机器人靠“想象”学习,但硬件门槛仍是拦路虎知名研究员Danijar Hafner的最新开源项目DayDreamer,让实体机器人通过在学习到的世界模型中模拟结果来掌握复杂任务。这一方法有望大幅提升样本效率,但高昂的硬件需求和算法复杂性仍是其广泛普及的重大障碍。

常见问题

GitHub 热点“Planet: Google's Latent Dynamics Model That Could Reshape Model-Based RL”主要讲了什么?

Google Research has introduced Planet, a latent dynamics model that learns to plan directly from pixel observations. The core innovation lies in combining variational inference wit…

这个 GitHub 项目在“Planet vs Dreamer comparison for continuous control”上为什么会引发关注?

Planet's architecture is a masterclass in probabilistic modeling for control. At its core, the model learns a latent dynamics model that operates in a compressed representation space rather than raw pixel space. The syst…

从“How to implement RSSM from scratch in PyTorch”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1251,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。