技术深度解析
文远知行的L2++系统架构,是对长期以来主导行业的模块化、地图依赖型流水线的重大背离。传统L2+系统依赖一个高度依赖高精地图进行车道级定位和路径规划的感知-规划-控制堆栈。而文远知行采用了一种混合方法,将学习到的世界模型与端到端(E2E)规划网络相融合。
世界模型集成: 核心创新在于使用一个潜在世界模型,该模型能够预测驾驶场景在短时间窗口(2-5秒)内的演变。该模型基于数百万小时的真实驾驶数据训练而成,学习了交通参与者的动态行为、道路几何结构以及常见的交互模式。与基于显式地图的推理不同,世界模型在学习的潜在空间中运行,使系统能够处理无地图道路、施工区域以及异常驾驶员行为,而不会出现性能下降。本质上,世界模型是一个与感知堆栈并行运行的“学习型模拟器”,为规划器提供预测性的先验知识。
端到端规划层: 在世界模型之上,文远知行部署了一个基于Transformer的端到端规划器,该规划器直接接收原始传感器数据(摄像头、雷达,可选激光雷达),并直接输出轨迹路径点。该规划器通过结合人类驾驶员数据的模仿学习和来自模拟场景的强化学习进行训练。其关键优势在于,规划器可以利用世界模型的预测来预判未来状态,从而在切入场景、无保护转弯以及汇入高速等情况下实现更平滑、更安全的操控。
无高精地图依赖: 这是最具颠覆性的方面。通过依赖世界模型对环境的学习表征,文远知行的系统可以在没有高精地图的情况下运行。这极大地降低了部署成本(高精地图的维护成本高达每公里1万至5万美元),并使得快速扩展到新地区成为可能。该系统仍然使用标准导航地图(例如来自HERE或TomTom的地图)进行路线规划,但实时的驾驶决策完全无需地图。
相关开源仓库: 尽管文远知行的代码库是专有的,但其底层技术借鉴了开源研究。UniAD 仓库(github.com/OpenDriveLab/UniAD,约5000星)提供了基于Transformer规划器的端到端自动驾驶参考实现。nuPlan 基准测试(github.com/motional/nuplan-devkit,约2000星)是评估规划算法的标准,其中包含了世界模型基线。文远知行在nuPlan上的表现将是一个有力的指标,尽管他们尚未公布结果。
性能基准: 文远知行尚未发布标准化的基准测试分数,但其五项“冠军”成就的内部数据显示,与上一代(Gen-1)系统相比,取得了以下改进:
| 指标 | Gen-1(依赖地图) | Gen-2(世界模型+端到端) | 改进幅度 |
|---|---|---|---|
| 高速接管率(每100公里) | 2.3 | 0.8 | 降低65% |
| 城市路口成功率 | 78% | 94% | +16个百分点 |
| 所需地图覆盖率 | 100% | 0% | 不适用 |
| OTA更新周期 | 4周 | 1周 | 快4倍 |
数据要点: 转向基于世界模型、无地图依赖的架构,在安全性(更低的接管率)和运营效率(更快的OTA周期)方面都带来了可衡量的提升。消除对高精地图的依赖是最大的单一成本驱动因素,使文远知行能够在数天而非数月内扩展到新城市。
关键玩家与案例研究
文远知行并非孤军奋战,但其方法独树一帜。让我们比较一下主要L2++玩家的策略:
| 公司 | 核心方法 | 地图依赖 | 关键产品 | 部署规模 |
|---|---|---|---|---|
| 文远知行 | 世界模型+端到端 | 无 | L2++ 高速/城市/代客泊车 | 中国10+城市,约10万+车辆 |
| 特斯拉 | 纯视觉端到端 | 无 | FSD(监督版) | 全球,200万+车辆配备FSD |
| 华为 | 模块化+高精地图 | 高 | ADS 2.0/3.0 | 中国5城市,有限OTA |
| 小鹏 | 混合(地图+端到端) | 中 | XNGP | 中国20+城市,30万+车辆 |
| Mobileye | REM众包地图 | 中 | SuperVision | 5+家OEM,10万+车辆 |
文远知行 vs. 特斯拉: 特斯拉的FSD在无地图端到端方面最为可比,但特斯拉依赖纯视觉系统,没有显式的世界模型。文远知行的世界模型提供了一个学习到的先验知识,能够更稳健地处理边缘案例(例如,儿童从停放的卡车后面冲上街道),优于纯模仿学习系统。然而,特斯拉拥有巨大的数据优势(每天有200万+车辆收集数据),这是文远知行无法匹敌的。
文远知行 vs. 华为: 华为的ADS 3.0可以说是技术最复杂的模块化系统,但其对高精地图的严重依赖使其部署成本高昂,且容易受到地图错误的影响。文远知行无地图的方法则提供了更高的灵活性和更低的部署门槛。