技术深度解析
现代自动驾驶系统的架构正在经历根本性变革。传统的模块化流水线——感知、预测、规划、控制——正被端到端神经网络取代,后者直接接收原始传感器数据并输出驾驶指令。这一转变由三大关键创新驱动:大语言模型(LLM)、世界模型和边缘计算。
大语言模型作为车辆大脑
LLM已不再局限于文本生成。特斯拉和Wayve等公司正将基于Transformer的架构直接集成到驾驶栈中。这些模型处理多模态输入——摄像头画面、激光雷达点云、雷达回波,甚至乘客的自然语言指令——以生成对驾驶环境的统一理解。其核心优势在于情境推理:LLM能推断出在斑马线前犹豫的行人可能是在看手机而非准备过马路,并据此调整行为。这远超将所有犹豫等同对待的规则系统。
一个值得关注的开源贡献是DriveLM(GitHub: OpenDriveLab/DriveLM,约2,300星),它提供了语言驱动驾驶的数据集和基线模型。DriveLM采用图结构感知方法,让LLM推理物体间关系——例如“自行车在公交车左侧,公交车正在减速”——以生成可解释的驾驶决策。另一个重要仓库是UniAD(GitHub: OpenDriveLab/UniAD,约3,500星),它开创了统一自动驾驶框架,将感知、预测和规划集成到单个端到端Transformer模型中。UniAD在nuScenes基准测试上取得了最先进结果,规划误差比模块化基线降低了15%。
用于虚拟训练的世界模型
世界模型是生成式神经网络,学习驾驶环境的物理规律和动态特性。它们让自动驾驶系统能运行数百万个模拟场景——包括儿童追球冲上马路、高速爆胎等罕见边缘案例——而无需承担现实风险。例如Wayve的GAIA-1模型,能根据动作输入生成逼真的驾驶场景视频序列,使驾驶策略能在从未真实遭遇的场景中训练。
| 模型 | 架构 | 训练数据 | 模拟保真度 | 关键指标(nuScenes规划误差) |
|---|---|---|---|---|
| UniAD | 端到端Transformer | 140万帧 | 真实场景回放 | 0.71米 |
| DriveLM | LLM + 图感知 | 120万帧 | 语言增强 | 0.68米 |
| GAIA-1 (Wayve) | 扩散Transformer | 4700小时视频 | 逼真生成 | 不适用(仅生成) |
数据要点: UniAD和DriveLM等端到端模型在规划精度上已超越传统模块化系统,DriveLM的语言增强推理使规划误差降低了4%。GAIA-1的生成能力代表了训练数据创建方式的范式转变,但其与生产系统的集成仍处于早期阶段。
边缘计算与延迟
第三大支柱是边缘计算。自动驾驶要求安全关键决策的推理延迟低于100毫秒。基于云的LLM会引入不可接受的延迟。各公司正在部署专用AI加速器——如NVIDIA的Orin和Thor芯片、高通Snapdragon Ride、特斯拉定制Dojo架构——以在本地运行大模型。例如特斯拉Dojo是专为其全自动驾驶(FSD)神经网络训练和推理设计的超级计算机,算力达1.1 exaflops。在车辆端,FSD计算机每秒处理来自八颗摄像头的2500帧画面,总系统延迟低于50毫秒。
要点: LLM、世界模型和边缘计算的融合不是渐进式改进,而是架构性变革。行业正从“代码驾驶”转向“模型理解”。未来12个月内,首批集成LLM驾驶栈的量产车将问世,很可能来自特斯拉及小鹏等中国车企。
关键玩家与案例研究
特斯拉仍是端到端学习最激进的倡导者。其FSD V12重写将超过30万行C++代码替换为单个神经网络,基于数百万个视频片段训练。结果是一个更像人类驾驶员的系统——流畅、有情境意识,偶尔难以预测。特斯拉的策略是从其600多万辆车队收集数据,利用影子模式持续改进模型。然而该公司面临监管阻力:NHTSA已对多起FSD相关事故展开调查,特斯拉向消费者部署测试版软件的做法也招致批评。
Waymo则采取更为保守的策略。