技术深度解析
传统自动驾驶系统的核心问题在于它们依赖手工编码的规则和模块化流水线:感知、预测、规划、控制。每个模块独立优化,而边缘场景——比如一个孩子追着球跑上街道,或者一个行人先与你对视然后后退——需要对每一种可能场景进行显式编程。这种方法从根本上来说是不可扩展的。现实世界拥有无限的边缘场景。
突破来自于端到端神经网络,其中单个深度学习模型将原始传感器输入(摄像头、雷达、激光雷达)直接映射到转向、油门和刹车指令。特斯拉的FSD v12是一个里程碑,它用单个神经网络取代了超过30万行C++代码。该模型从数百万小时的真实驾驶数据中学习,捕捉人类驾驶员本能使用的隐性知识。
但真正的游戏规则改变者是“世界模型”架构,由Wayve(其GAIA-1模型)等研究团队开创,并越来越多地被特斯拉采用。世界模型不仅感知当前场景,它还学习驾驶环境的潜在表征,从而能够预测世界在未来几秒内将如何演变。它可以模拟多种未来——“如果那辆车突然转向怎么办?”“如果行人走下路缘怎么办?”——并选择最安全的行动。这是从被动驾驶到预测驾驶的根本性转变。
| 模型 | 架构 | 训练数据 | 边缘场景处理 | 车载计算能力 |
|---|---|---|---|---|
| 传统(例如Waymo 2020) | 模块化流水线(感知→预测→规划) | 约1000万英里标注数据 | 差;需要为每个场景制定显式规则 | 约2-3 TOPS |
| 端到端(例如特斯拉FSD v12) | 单神经网络(视觉→控制) | 约1亿英里真实数据 | 中等;泛化能力更好,但仍难以应对罕见事件 | 约144 TOPS(HW4) |
| 世界模型(例如Wayve GAIA-1,特斯拉v13+) | 生成式潜在模型+策略 | 约10亿+英里模拟+真实数据 | 强;预测多种未来,处理不确定性 | 约500+ TOPS(HW5) |
数据要点: 从模块化到端到端再到世界模型的转变,代表了边缘场景处理能力100倍的提升,这得益于10倍的训练数据和100倍的车载计算能力。关键指标不再是感知精度,而是预测范围和不确定性量化。
该领域一个值得注意的开源项目是UniAD(面向规划的自动驾驶),它提出了一个统一框架,将感知、预测和规划整合到单个端到端模型中。该项目在GitHub上已获得超过3000颗星,并在nuScenes基准测试中展示了最先进的性能。另一个是nuPlan,一个闭环规划基准测试,迫使模型处理长尾场景。
关键参与者与案例研究
特斯拉仍然是最引人注目的参与者,其FSD(监督版)系统现已部署到超过100万辆汽车上。向v12和v13的过渡是戏剧性的:该系统不再依赖高精地图,可以处理复杂的城市交叉路口、无保护左转和施工区域。然而,它仍然需要驾驶员监督,并且在某些边缘场景下会失败,例如极端天气或异常的道路布局。
Waymo采取了不同的路径,使用激光雷达和高精地图,结合更保守、经过安全认证的方法。其系统已在凤凰城、旧金山和洛杉矶自主行驶了超过2000万英里,拥有良好的安全记录。然而,其地理覆盖范围有限,激光雷达和高精地图维护的成本仍然很高。
Wayve,一家英国初创公司,凭借其GAIA-1世界模型引起了关注,该模型可以生成逼真的驾驶场景并从中学习。他们最近从软银、英伟达和微软筹集了10.5亿美元,表明投资者对世界模型方法充满信心。
| 公司 | 方法 | 地理覆盖范围 | 安全记录(每1000英里脱离次数) | 单车成本(估计) |
|---|---|---|---|---|
| 特斯拉 | 纯视觉,端到端,世界模型 | 全球(受法规限制) | 约0.5(FSD v13,监督版) | 约3000美元(FSD选装) |
| Waymo | 激光雷达+高精地图,模块化 | 美国3个城市 | 约0.1(完全无人驾驶) | 约10万美元以上 |
| Wayve | 纯视觉,世界模型 | 英国(测试中) | 约1.0(原型) | 约1万美元(估计) |
| Cruise | 激光雷达+高精地图,模块化 | 美国2个城市(已暂停) | 约0.3(事故前) | 约8万美元以上 |
数据要点: 特斯拉的方法提供了最佳的可扩展性(数百万辆汽车,全球数据收集),但脱离率较高。Waymo的方法更安全,但受地理限制且成本高昂。Wayve的世界模型方法有望成为中间地带,但尚未在大规模上得到验证。
行业影响与市场动态
向世界模型的转变正在重塑竞争格局。传统汽车制造商