技术深度解析
R7世界模型并非单一神经网络,而是一个多组件架构,结合了潜在动力学模型、强化学习策略网络和可微分模拟器。其核心是一个学习的潜在空间,将高维传感器输入——摄像头、激光雷达、雷达——压缩为紧凑的状态表示。世界模型随后预测该潜在状态在不同动作序列下如何随时间演化,使系统能够在做出控制决策前“想象”多种未来。
架构分解:
- 编码器: 一种视觉Transformer(ViT)变体,将多模态传感器数据处理为潜在向量。Momenta未披露确切参数数量,但行业估计感知模块的骨干网络约为20亿参数。
- 潜在动力学模型: 一种循环状态空间模型(RSSM),类似于DreamerV3,但针对30Hz实时推理进行了适配。该模型使用学习到的转移函数预测潜在状态转移,使系统能够模拟长达10秒的未来轨迹。
- 策略网络: 一个小型MLP(约5000万参数),将潜在状态映射为连续控制信号(转向、油门、刹车)。策略通过强化学习训练,奖励函数惩罚碰撞、粗暴操作和车道偏离,同时奖励平稳性和向目的地的进展。
- 可微分模拟器: Momenta使用基于NVIDIA Isaac Sim构建的自定义GPU加速模拟器,但针对真实世界传感器噪声建模进行了专有修改。该模拟器生成城市驾驶场景的逼真渲染,包括行人冲入车流或车辆闯红灯等罕见事件。
训练方法:
强化学习训练管道运行在10,000块NVIDIA H100 GPU的集群上。Momenta每年从其80多万辆车的车队中收集超过10亿英里的真实驾驶数据。这些数据用于训练世界模型的动力学,而策略则完全在模拟中使用学习到的世界模型作为环境进行训练。这种方法被称为“基于世界模型的强化学习”,避免了需要真实世界探索的不安全性。关键创新在于使用“奖励塑造”机制,结合真实数据中的人类驾驶演示,引导策略向类人行为发展。
性能基准:
| 指标 | Momenta R7 | Tesla FSD v13 | Waymo Driver (Gen 6) |
|---|---|---|---|
| 每1000英里干预次数(城市) | 0.12 | 0.21 | 0.09 |
| 感知延迟(毫秒) | 45 | 60 | 50 |
| 规划时域(秒) | 10 | 8 | 12 |
| 算力(TOPS) | 200(基于Qualcomm Snapdragon Ride) | 144(HW 4.0) | 1000+(定制) |
| 训练算力(每模型迭代GPU小时) | 500,000 | 1,200,000(估计) | 2,000,000+ |
数据要点: Momenta凭借世界模型方法的效率,以显著低于Waymo的算力实现了具有竞争力的干预率。然而,Waymo的定制硬件在边缘情况下仍提供了安全裕度。关键差异在于Momenta的快速迭代能力——每次迭代50万GPU小时,而Waymo超过200万——从而实现了更快的部署周期。
相关开源工作:
虽然Momenta的R7是专有的,但其底层技术大量借鉴了开源世界模型研究。值得关注的关键仓库:
- DreamerV3(Google DeepMind):从像素学习世界模型的基础算法。GitHub上超过5000星。Momenta的RSSM架构是其直接衍生。
- UniSim(MIT):用于训练具身智能体的通用模拟器。Momenta的可微分模拟器与UniSim的可微分渲染管道共享设计原则。
- RLHF for Driving(Stanford):探索从人类反馈中强化学习用于自动驾驶的仓库。Momenta的奖励塑造方法与此方法论一致。
关键玩家与案例研究
Momenta的成功并非孤立现象——它反映了自动驾驶行业从基于规则的系统向端到端学习的更广泛转变。该领域的关键玩家正在追求不同的架构策略:
竞争格局:
| 公司 | 方法 | 部署规模 | 主要OEM合作伙伴 |
|---|---|---|---|
| Momenta | 世界模型 + 强化学习 | 80万+辆车 | 梅赛德斯-奔驰、奥迪、宝马、丰田、通用汽车 |
| Tesla | 端到端神经网络(FSD v13) | 约200万辆车(具备FSD能力) | 仅Tesla |
| Waymo | 模块化堆栈 + 模拟 | 约700辆机器人出租车 | 克莱斯勒、捷豹、极氪 |
| 华为ADS | 混合:规则 + 学习 | 约50万辆车 | 问界、阿维塔、智界 |
| 地平线 | 感知 + 规划芯片 | 约300万辆车(仅ADAS) | 比亚迪、大众、上汽 |
数据要点: Momenta在非Tesla玩家中领先于量产规模,但其每辆车