Planet:谷歌潜在动力学模型,或将重塑基于模型的强化学习格局

GitHub May 2026
⭐ 1251
来源:GitHub归档:May 2026
谷歌研究院推出的Planet模型,通过变分推断与循环神经网络从原始像素中学习紧凑的潜在状态表征,在部分可观测环境中实现样本高效的规划。该方法将模型预测控制与学习到的动力学相结合,攻克高维控制任务,为强化学习开辟了新路径。

谷歌研究院发布了Planet,一种潜在动力学模型,能够直接从像素观测中进行规划。其核心创新在于将变分推断与循环神经网络结合,将高维视觉输入压缩至紧凑的潜在状态空间,进而通过模型预测控制(MPC)为动作规划奠定基础。这一架构使智能体无需显式的全状态模拟器即可推理未来结果,相比无模型强化学习方法,样本效率显著提升。在实际应用中,Planet在DeepMind Control Suite等连续控制基准测试中表现强劲,其样本效率往往能与甚至超越最先进的无模型算法。

技术深度解析

Planet的架构堪称控制领域概率建模的典范。其核心在于学习一个潜在动力学模型,该模型在压缩表征空间而非原始像素空间中运行。系统由三个关键组件构成:

1. 编码器/解码器:一个卷积神经网络(CNN),将原始图像观测 \(o_t\) 映射为随机潜在状态 \(z_t\);以及一个转置CNN解码器,从潜在状态重建图像。这本质上是标准变分自编码器(VAE)的机制,但有一个关键区别:潜在状态并非静态,而是随时间演化。

2. 循环状态空间模型(RSSM):这是Planet的核心。RSSM维护一个确定性循环状态 \(h_t\)(通过GRU或LSTM实现),该状态利用前一个潜在状态 \(z_{t-1}\) 和动作 \(a_{t-1}\) 进行更新。从这一确定性状态出发,模型预测下一个潜在状态 \(z_t\) 的随机先验分布。随后,利用实际观测 \(o_t\) 计算后验分布。RSSM由此将确定性时间动力学与随机不确定性分离,使模型能够同时捕捉环境中的可预测模式与不可约的随机性。

3. 奖励与折扣预测器:小型神经网络,从潜在状态预测即时奖励和折扣因子(用于回合制任务)。这些预测器与模型的其他部分联合训练。

训练目标是一种证据下界(ELBO)形式,平衡了重建精度(像素对数似然)、奖励预测精度以及潜在状态先验与后验之间的KL散度。这确保了潜在空间既能预测未来观测,又足够紧凑以支持规划。

通过MPC进行规划:在测试阶段,Planet使用交叉熵方法(CEM)在潜在空间中进行规划。智能体从高斯分布中采样动作序列,通过已学习的动力学模型滚动预测累积奖励,并迭代优化动作分布,使其趋向于高奖励轨迹。这比无模型方法样本效率高得多,因为智能体无需与真实环境交互即可“想象”数千条轨迹。

基准性能:原始Planet论文在DeepMind Control Suite(例如Cheetah Run、Walker Walk、Finger Spin)上报告了结果。下表将其样本效率与无模型基线进行了比较:

| 环境 | Planet(10万步) | SAC(10万步) | D4PG(10万步) |
|---|---|---|---|
| Cheetah Run | 580 ± 130 | 350 ± 60 | 210 ± 40 |
| Walker Walk | 620 ± 110 | 400 ± 80 | 280 ± 50 |
| Finger Spin | 720 ± 90 | 550 ± 70 | 310 ± 60 |

数据要点:在相同的10万次环境交互预算下,Planet获得了显著高于SAC和D4PG的分数,展现出明显的样本效率优势。Planet的误差范围更大,反映了学习模型的随机性,但平均性能始终更优。

GitHub相关性:官方仓库(google-research/planet)仍是参考实现。尽管代码库未积极维护,但它已催生了许多分支和衍生项目。值得注意的是,Dreamer系列(同样来自谷歌)直接从Planet演化而来,用学习到的策略取代了MPC规划器,实现了更高的效率。RSSM架构本身已被后续许多工作采用。

关键参与者与案例研究

谷歌研究院(DeepMind)是Planet的主要推动者,主要作者包括Danijar Hafner、Timothy Lillicrap等人。Hafner随后开发了Dreamer和DreamerV2,用学习到的演员-评论家取代了CEM规划器,在Atari游戏上取得了最先进的结果。从Planet到Dreamer的演变展示了一条清晰的研究轨迹:首先学习一个好的世界模型,然后完全在该模型内部训练策略。

竞争方法

| 模型 | 规划器类型 | 样本效率 | Atari性能 | GitHub星标 |
|---|---|---|---|---|
| Planet | CEM(MPC) | 高 | 不适用(连续控制) | ~1,250 |
| DreamerV2 | 学习型演员-评论家 | 非常高 | 人类基线的637% | ~3,500 |
| TD-MPC | CEM + 时间差分 | 高 | 不适用(连续控制) | ~800 |
| MuZero | MCTS + 学习模型 | 非常高 | 超人类水平 | ~6,000 |

数据要点:DreamerV2和MuZero在样本效率和最终性能上均已超越Planet,但它们直接建立在Planet开创的RSSM和潜在动力学概念之上。Planet的遗产是基础性的,而非终点。

案例研究:机器人操作:加州大学伯克利分校和谷歌机器人的研究人员已将类似Planet的潜在动力学模型应用于真实世界的机器人操作任务。例如,一个学习推积木的机械臂可以使用类似Planet的模型在潜在空间中规划抓取,从而减少真实世界的试验次数。

更多来自 GitHub

RNNoise:悄然驱动实时音频的微型神经网络Xiph.Org基金会推出的RNNoise库,是将循环神经网络(RNN)应用于实时音频处理的一座里程碑。其核心创新在于一个极为紧凑的模型——体积仅约100KB,可在单CPU核心上以亚毫秒级延迟运行,使其成为嵌入式系统和实时通信的理想选择。该无标题In an era where AI models grow exponentially, RNNoise stands as a counterpoint: a lean, efficient, and brutally effectivSynapseKit:极简主义Python框架挑战LLM应用复杂性AI框架生态已沦为抽象概念的丛林。从LangChain的庞大链式结构到LlamaIndex的复杂索引管道,开发者往往花费更多时间调试框架本身的怪癖,而非构建实际应用。如今,SynapseKit横空出世——这款全新的开源Python框架将LL查看来源专题页GitHub 已收录 1890 篇文章

时间归档

May 20261765 篇已发布文章

延伸阅读

Vision Transformer:谷歌研究如何终结CNN在计算机视觉领域长达十年的统治谷歌研究院推出的Vision Transformer(ViT)彻底打破了卷积神经网络在计算机视觉领域长达十年的主导地位。通过将图像视为一系列图像块并应用纯Transformer编码器,ViT在图像分类任务上达到了业界顶尖水平——但前提是必须XTREME基准测试:谷歌跨语言AI评估新标杆,重塑多语言模型竞赛格局谷歌研究院推出的XTREME基准测试,覆盖40种语言与9大任务,已成为评估跨语言AI模型的事实标准。然而,在其全面性背后,关于公平性、实际应用价值以及多语言NLP未来走向的深层问题正浮出水面。谷歌TimesFM:时间序列预测迎来“基础模型”范式革命谷歌研究发布时间序列预测基础模型TimesFM,该模型基于千亿级真实世界时间点预训练,展现出卓越的零样本与小样本预测能力。这标志着针对结构化时序数据的“基础模型”应用迈入关键节点,或将彻底改变为每个数据集定制训练模型的传统范式。谷歌T5X框架:模块化引擎驱动下一代Transformer模型浪潮谷歌研究院悄然推出T5X——一个模块化、可组合的框架,旨在统一大规模Transformer模型的训练、微调与推理。基于JAX和Flax构建,此举标志着谷歌正将其庞杂的AI开发基础设施整合至单一工业级代码库。该框架有望加速研究进程并推动前沿模

常见问题

GitHub 热点“Planet: Google's Latent Dynamics Model That Could Reshape Model-Based RL”主要讲了什么?

Google Research has introduced Planet, a latent dynamics model that learns to plan directly from pixel observations. The core innovation lies in combining variational inference wit…

这个 GitHub 项目在“Planet vs Dreamer comparison for continuous control”上为什么会引发关注?

Planet's architecture is a masterclass in probabilistic modeling for control. At its core, the model learns a latent dynamics model that operates in a compressed representation space rather than raw pixel space. The syst…

从“How to implement RSSM from scratch in PyTorch”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 1251,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。