技术深度解析
强化学习从符号化状态表征向视觉输入的转变,不仅仅是数据格式的变更,更是一次根本性的架构革命。传统RL依赖于马尔可夫决策过程(MDP),其中状态*s*是一个精心设计的向量——坐标、速度、传感器读数。这需要领域专业知识,且在非结构化环境中容易失效。视觉RL用原始像素取代了*s*,通常采用连续帧堆叠(例如4帧84x84分辨率)来捕捉运动与时间动态。
关键的工程挑战是“维度灾难”——一个84x84x4的像素输入约有28,000个维度,而手工编码的状态通常只有几个维度。为应对这一挑战,现代视觉RL流水线使用卷积神经网络(CNN)或视觉Transformer(ViT)作为特征提取器,将像素压缩为潜在表征。目前出现了两种主导架构:
1. DreamerV3(Google DeepMind):一种基于模型的方法,从像素中学习“世界模型”。智能体首先学习根据过往动作预测未来帧和奖励,然后通过“做梦”——在学到的潜在空间中模拟轨迹——进行规划。这种方法样本效率极高;DreamerV3仅使用像素输入就在《我的世界》中达到了超人水平。
2. DrQ-v2(数据正则化Q学习):一种无模型方法,通过对像素输入应用数据增强(随机平移、颜色抖动)来提高样本效率和鲁棒性。它在DeepMind控制套件上以极少的超参数调优达到了最先进水平。
一个关键的最新进展是将因果发现整合进视觉RL循环。MIT和斯坦福的研究人员提出了从像素序列中显式建模因果图的架构。例如,GitHub上的“因果世界模型”(CWM)仓库(目前约2,800颗星)使用变分自编码器和注意力机制,学习将“原因”变量(智能体动作、物体交互)与“效果”变量(视觉变化)分离。这使得智能体能够回答反事实问题:“如果我向左推方块而不是向右推,会发生什么?”——这是安全部署所必需的能力。
基准性能:
| 模型 | 任务 | 输入类型 | 成功率 | 训练步数(百万) | 样本效率(相对) |
|---|---|---|---|---|---|
| DreamerV3 | 《我的世界》(获得钻石) | 像素(64x64) | 98% | 100 | 比此前SOTA提升10倍 |
| DrQ-v2 | DMC Walker(困难) | 像素(84x84) | 95% | 10 | 比SAC提升5倍 |
| CWM(MIT) | Meta-World(10个任务) | 像素(64x64) | 平均87% | 50 | 比DreamerV3提升3倍 |
| PPO + ViT | Atari(57个游戏) | 像素(84x84) | 112%人类基准 | 200 | 接近人类水平 |
数据要点: 基于模型的方法(DreamerV3)在《我的世界》等复杂、长周期任务中占据主导地位,而无模型方法(DrQ-v2)在更简单的控制任务中样本效率更高。CWM架构表明,显式因果建模能在多个任务间实现更好的泛化能力,这是通用智能体的关键要求。
另一个值得注意的开源贡献是Stable-Baselines3 Zoo(超过5,000颗星),它现在包含了针对机器人基准测试的预训练视觉RL智能体,研究人员可以用极少的代码在自定义任务上进行微调。该仓库提供了标准化的摄像头输入封装,使小型团队也能轻松上手。
关键参与方与案例研究
视觉RL革命并不局限于学术界。多家公司和研究团队正在积极部署这些技术:
- Wayve:这家英国自动驾驶初创公司使用完全基于伦敦和旧金山行车记录仪视频训练的视觉RL。其“LINGO-2”模型通过同时观看视频和阅读自然语言指令来学习驾驶,与传统基于高清地图的系统相比,干预率降低了40%。Wayve的方法消除了对昂贵的LiDAR和高清地图的需求,仅依赖摄像头和学到的交通动态因果模型。
- Google DeepMind:除了DreamerV3,DeepMind的“RT-2”(机器人Transformer 2)使用网络规模的视频数据(包括YouTube)训练视觉-语言-动作模型。机器人通过观看烹饪视频学习执行“拿起红苹果”等任务,然后泛化到未见过的厨房环境。DeepMind报告称,在新任务上的成功率为62%,而仅使用域内数据训练的模型仅为32%。
- Physical Intelligence(π):这家旧金山机器人初创公司由前伯克利和谷歌研究人员创立,使用视觉RL训练通用机器人控制器。其“π0”模型可以折叠衣物、组装家具和烹饪鸡蛋——全部基于像素输入,无需任务特定编程。该公司在2024年完成了4亿美元的A轮融资,估值达20亿美元。