技术深度解析
向AI原生自动驾驶的转变从根本上说是一场架构革命。旧范式通常被称为“模块化流水线”,它将感知、预测、规划和控制视为独立、手工设计的模块。每个模块都有自己的规则和输出,形成了一个脆弱的系统,难以应对边缘场景。新范式用一个单一的端到端神经网络取而代之,该网络将原始传感器数据直接映射到驾驶行为。
世界模型作为核心引擎
这一新架构的核心是“世界模型”。这不是一张静态地图,而是一个学习到的、潜在的环境表征,能够预测未来状态。受Google DeepMind的Dreamer系列等模型启发,自动驾驶世界模型学习交通动态:其他车辆将如何移动、行人可能如何行为、道路几何形状如何随时间变化。一个关键的开源参考是'UniWorld'仓库(github.com/UniWorld-Project/UniWorld),它因从多摄像头视频中学习统一世界模型的方法而获得了超过2000颗星。另一个重要项目是'Mile'(基于模型的端到端模仿学习),它展示了如何在没有高清地图的情况下使用世界模型进行规划。
端到端神经网络
最激进的背离是端到端方法。感知模块输出边界框、预测模块输出轨迹、规划模块输出路径,而端到端网络则直接接收原始传感器数据(例如8个摄像头图像),并直接输出转向、油门和刹车指令。特斯拉的'Occupancy Networks'和'Neural Network Planner'是最突出的商业实例。该网络学习世界的潜在表征——一个自由空间的“占用”网格——并利用它来规划轨迹。这消除了模块间每个接口发生的信息丢失。
持续学习与数据飞轮
AI原生模型并非静态。它专为持续学习而设计。当车辆遇到新场景(例如带有异常标志的施工区)时,车队的边缘设备(车辆)可以将原始数据上传到中央训练集群。模型被重新训练,新版本通过OTA更新推送到车队。这创造了一个数据飞轮:行驶里程越多 → 遇到的边缘场景越多 → 模型越好 → 驾驶越安全 → 行驶里程越多。英国初创公司Wayve将其整个理念建立在这一基础上,其'GAIA-1'模型从真实世界日志中生成合成训练数据,以加速学习。
衡量这一转变
衡量这一新范式的进展需要新的指标。传统的基准测试如KITTI(用于目标检测)正被以规划为导向的基准测试如nuPlan和行业标准的Waymo Open Motion Dataset所补充。下表比较了模块化系统与端到端系统在nuPlan基准测试上的性能,该基准测试衡量模拟15秒时间范围内的“可行驶区域合规率”和“无碰撞率”。
| 方法 | 模型/系统 | 碰撞率 (%) | 可行驶区域合规率 (%) | 平均位移误差 (m) |
|---|---|---|---|---|
| 模块化 | PDM-Closed (基于规则) | 1.2 | 98.5 | 2.1 |
| 模块化 | PDM-Open (学习型规划器) | 0.8 | 99.1 | 1.8 |
| 端到端 | UniAD (开源) | 0.5 | 99.6 | 1.2 |
| 端到端 | VAD (向量化自动驾驶) | 0.3 | 99.8 | 0.9 |
数据要点: 表格显示了一个明显趋势。端到端模型(UniAD, VAD)在最关键的安全指标(碰撞率)上显著优于模块化方法,同时实现了更高的可行驶区域合规率。这些数据验证了行业的转向:将感知和规划整合到一个单一网络中,减少了误差累积,并带来了更稳健的驾驶行为。
关键玩家与案例研究
几家公司正引领潮流,每家都有独特的策略。下表比较了它们的核心方法。
| 公司 | 核心理念 | 关键技术 | 数据策略 | 商业模式 |
|---|---|---|---|---|
| Tesla | 纯视觉,端到端神经网络 | Occupancy Networks, Neural Net Planner | 来自数百万辆车的车队学习 | 硬件 + FSD软件订阅 |
| Wayve | 驾驶基础模型 | GAIA-1 (生成式世界模型), LINGO-1 (语言引导) | 合成数据生成 + 真实世界日志 | 向OEM授权软件 |
| Momenta | “数据驱动”的端到端,兼顾安全 | 'MonoDrive' 仿真, 'Road to Reality' 流水线 | 来自OEM合作伙伴(上汽、奔驰)的车队学习 | Tier-1供应商 + 版税模式 |
| Huawei | 混合:模块化 + 端到端 | ADS 3.0 系统,配备GOD(通用障碍物检测)网络 | 来自自有车队和合作伙伴的海量数据 | 集成硬件 + 软件解决方案 |
Tesla:先驱与极化者
特斯拉的策略最为激进且反传统。