Planet：谷歌潜在动力学模型，或将重塑基于模型的强化学习格局

2026年5月17日 01:35 AINews GitHub May 2026

⭐ 1251

谷歌研究院推出的Planet模型，通过变分推断与循环神经网络从原始像素中学习紧凑的潜在状态表征，在部分可观测环境中实现样本高效的规划。该方法将模型预测控制与学习到的动力学相结合，攻克高维控制任务，为强化学习开辟了新路径。

谷歌研究院发布了Planet，一种潜在动力学模型，能够直接从像素观测中进行规划。其核心创新在于将变分推断与循环神经网络结合，将高维视觉输入压缩至紧凑的潜在状态空间，进而通过模型预测控制（MPC）为动作规划奠定基础。这一架构使智能体无需显式的全状态模拟器即可推理未来结果，相比无模型强化学习方法，样本效率显著提升。在实际应用中，Planet在DeepMind Control Suite等连续控制基准测试中表现强劲，其样本效率往往能与甚至超越最先进的无模型算法。

技术深度解析

Planet的架构堪称控制领域概率建模的典范。其核心在于学习一个潜在动力学模型，该模型在压缩表征空间而非原始像素空间中运行。系统由三个关键组件构成：

1. 编码器/解码器：一个卷积神经网络（CNN），将原始图像观测 \(o_t\) 映射为随机潜在状态 \(z_t\)；以及一个转置CNN解码器，从潜在状态重建图像。这本质上是标准变分自编码器（VAE）的机制，但有一个关键区别：潜在状态并非静态，而是随时间演化。

2. 循环状态空间模型（RSSM）：这是Planet的核心。RSSM维护一个确定性循环状态 \(h_t\)（通过GRU或LSTM实现），该状态利用前一个潜在状态 \(z_{t-1}\) 和动作 \(a_{t-1}\) 进行更新。从这一确定性状态出发，模型预测下一个潜在状态 \(z_t\) 的随机先验分布。随后，利用实际观测 \(o_t\) 计算后验分布。RSSM由此将确定性时间动力学与随机不确定性分离，使模型能够同时捕捉环境中的可预测模式与不可约的随机性。

3. 奖励与折扣预测器：小型神经网络，从潜在状态预测即时奖励和折扣因子（用于回合制任务）。这些预测器与模型的其他部分联合训练。

训练目标是一种证据下界（ELBO）形式，平衡了重建精度（像素对数似然）、奖励预测精度以及潜在状态先验与后验之间的KL散度。这确保了潜在空间既能预测未来观测，又足够紧凑以支持规划。

通过MPC进行规划：在测试阶段，Planet使用交叉熵方法（CEM）在潜在空间中进行规划。智能体从高斯分布中采样动作序列，通过已学习的动力学模型滚动预测累积奖励，并迭代优化动作分布，使其趋向于高奖励轨迹。这比无模型方法样本效率高得多，因为智能体无需与真实环境交互即可“想象”数千条轨迹。

基准性能：原始Planet论文在DeepMind Control Suite（例如Cheetah Run、Walker Walk、Finger Spin）上报告了结果。下表将其样本效率与无模型基线进行了比较：

| 环境 | Planet（10万步） | SAC（10万步） | D4PG（10万步） |
|---|---|---|---|
| Cheetah Run | 580 ± 130 | 350 ± 60 | 210 ± 40 |
| Walker Walk | 620 ± 110 | 400 ± 80 | 280 ± 50 |
| Finger Spin | 720 ± 90 | 550 ± 70 | 310 ± 60 |

数据要点：在相同的10万次环境交互预算下，Planet获得了显著高于SAC和D4PG的分数，展现出明显的样本效率优势。Planet的误差范围更大，反映了学习模型的随机性，但平均性能始终更优。

GitHub相关性：官方仓库（google-research/planet）仍是参考实现。尽管代码库未积极维护，但它已催生了许多分支和衍生项目。值得注意的是，Dreamer系列（同样来自谷歌）直接从Planet演化而来，用学习到的策略取代了MPC规划器，实现了更高的效率。RSSM架构本身已被后续许多工作采用。

关键参与者与案例研究

谷歌研究院（DeepMind）是Planet的主要推动者，主要作者包括Danijar Hafner、Timothy Lillicrap等人。Hafner随后开发了Dreamer和DreamerV2，用学习到的演员-评论家取代了CEM规划器，在Atari游戏上取得了最先进的结果。从Planet到Dreamer的演变展示了一条清晰的研究轨迹：首先学习一个好的世界模型，然后完全在该模型内部训练策略。

竞争方法：

| 模型 | 规划器类型 | 样本效率 | Atari性能 | GitHub星标 |
|---|---|---|---|---|
| Planet | CEM（MPC） | 高 | 不适用（连续控制） | ~1,250 |
| DreamerV2 | 学习型演员-评论家 | 非常高 | 人类基线的637% | ~3,500 |
| TD-MPC | CEM + 时间差分 | 高 | 不适用（连续控制） | ~800 |
| MuZero | MCTS + 学习模型 | 非常高 | 超人类水平 | ~6,000 |

数据要点：DreamerV2和MuZero在样本效率和最终性能上均已超越Planet，但它们直接建立在Planet开创的RSSM和潜在动力学概念之上。Planet的遗产是基础性的，而非终点。

案例研究：机器人操作：加州大学伯克利分校和谷歌机器人的研究人员已将类似Planet的潜在动力学模型应用于真实世界的机器人操作任务。例如，一个学习推积木的机械臂可以使用类似Planet的模型在潜在空间中规划抓取，从而减少真实世界的试验次数。

常见问题

GitHub 热点“Planet: Google's Latent Dynamics Model That Could Reshape Model-Based RL”主要讲了什么？

Google Research has introduced Planet, a latent dynamics model that learns to plan directly from pixel observations. The core innovation lies in combining variational inference wit…

这个 GitHub 项目在“Planet vs Dreamer comparison for continuous control”上为什么会引发关注？

Planet's architecture is a masterclass in probabilistic modeling for control. At its core, the model learns a latent dynamics model that operates in a compressed representation space rather than raw pixel space. The syst…

从“How to implement RSSM from scratch in PyTorch”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1251，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

Planet：谷歌潜在动力学模型，或将重塑基于模型的强化学习格局

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题