技术深度解析
Planet的架构堪称控制领域概率建模的典范。其核心在于学习一个潜在动力学模型,该模型在压缩表征空间而非原始像素空间中运行。系统由三个关键组件构成:
1. 编码器/解码器:一个卷积神经网络(CNN),将原始图像观测 \(o_t\) 映射为随机潜在状态 \(z_t\);以及一个转置CNN解码器,从潜在状态重建图像。这本质上是标准变分自编码器(VAE)的机制,但有一个关键区别:潜在状态并非静态,而是随时间演化。
2. 循环状态空间模型(RSSM):这是Planet的核心。RSSM维护一个确定性循环状态 \(h_t\)(通过GRU或LSTM实现),该状态利用前一个潜在状态 \(z_{t-1}\) 和动作 \(a_{t-1}\) 进行更新。从这一确定性状态出发,模型预测下一个潜在状态 \(z_t\) 的随机先验分布。随后,利用实际观测 \(o_t\) 计算后验分布。RSSM由此将确定性时间动力学与随机不确定性分离,使模型能够同时捕捉环境中的可预测模式与不可约的随机性。
3. 奖励与折扣预测器:小型神经网络,从潜在状态预测即时奖励和折扣因子(用于回合制任务)。这些预测器与模型的其他部分联合训练。
训练目标是一种证据下界(ELBO)形式,平衡了重建精度(像素对数似然)、奖励预测精度以及潜在状态先验与后验之间的KL散度。这确保了潜在空间既能预测未来观测,又足够紧凑以支持规划。
通过MPC进行规划:在测试阶段,Planet使用交叉熵方法(CEM)在潜在空间中进行规划。智能体从高斯分布中采样动作序列,通过已学习的动力学模型滚动预测累积奖励,并迭代优化动作分布,使其趋向于高奖励轨迹。这比无模型方法样本效率高得多,因为智能体无需与真实环境交互即可“想象”数千条轨迹。
基准性能:原始Planet论文在DeepMind Control Suite(例如Cheetah Run、Walker Walk、Finger Spin)上报告了结果。下表将其样本效率与无模型基线进行了比较:
| 环境 | Planet(10万步) | SAC(10万步) | D4PG(10万步) |
|---|---|---|---|
| Cheetah Run | 580 ± 130 | 350 ± 60 | 210 ± 40 |
| Walker Walk | 620 ± 110 | 400 ± 80 | 280 ± 50 |
| Finger Spin | 720 ± 90 | 550 ± 70 | 310 ± 60 |
数据要点:在相同的10万次环境交互预算下,Planet获得了显著高于SAC和D4PG的分数,展现出明显的样本效率优势。Planet的误差范围更大,反映了学习模型的随机性,但平均性能始终更优。
GitHub相关性:官方仓库(google-research/planet)仍是参考实现。尽管代码库未积极维护,但它已催生了许多分支和衍生项目。值得注意的是,Dreamer系列(同样来自谷歌)直接从Planet演化而来,用学习到的策略取代了MPC规划器,实现了更高的效率。RSSM架构本身已被后续许多工作采用。
关键参与者与案例研究
谷歌研究院(DeepMind)是Planet的主要推动者,主要作者包括Danijar Hafner、Timothy Lillicrap等人。Hafner随后开发了Dreamer和DreamerV2,用学习到的演员-评论家取代了CEM规划器,在Atari游戏上取得了最先进的结果。从Planet到Dreamer的演变展示了一条清晰的研究轨迹:首先学习一个好的世界模型,然后完全在该模型内部训练策略。
竞争方法:
| 模型 | 规划器类型 | 样本效率 | Atari性能 | GitHub星标 |
|---|---|---|---|---|
| Planet | CEM(MPC) | 高 | 不适用(连续控制) | ~1,250 |
| DreamerV2 | 学习型演员-评论家 | 非常高 | 人类基线的637% | ~3,500 |
| TD-MPC | CEM + 时间差分 | 高 | 不适用(连续控制) | ~800 |
| MuZero | MCTS + 学习模型 | 非常高 | 超人类水平 | ~6,000 |
数据要点:DreamerV2和MuZero在样本效率和最终性能上均已超越Planet,但它们直接建立在Planet开创的RSSM和潜在动力学概念之上。Planet的遗产是基础性的,而非终点。
案例研究:机器人操作:加州大学伯克利分校和谷歌机器人的研究人员已将类似Planet的潜在动力学模型应用于真实世界的机器人操作任务。例如,一个学习推积木的机械臂可以使用类似Planet的模型在潜在空间中规划抓取,从而减少真实世界的试验次数。