技术深度解析
从小鹏第一代VLA到目标中的第二代模型的演进,代表了一次根本性的架构转变。第一代VLA,即目前驱动XNGP的系统,是一个处理原始传感器数据(主要是摄像头、激光雷达、雷达)并输出结构化驾驶动作的大规模多模态模型。它采用基于Transformer的架构,创建了一个代表驾驶场景的统一向量空间,将视觉特征与语义语言查询(例如“识别可行驶区域”、“预测行人轨迹”)相融合。然而,它仍需与传统基于规则的规划模块协同工作,并常常受其制约,同时高度依赖高精地图的先验信息。
第二代VLA的OKR指向一种更纯粹的端到端路径。“无高精地图城市导航”的目标要求模型能够自行构建持久、在线的空间理解——即一种神经场景表征或“神经地图”。这很可能涉及鸟瞰图(BEV)变换与时序融合方面的创新,通过整合连续的摄像头帧来创建对3D环境的动态、以自我为中心的理解。关键在于,这种表征必须被赋予实时推断出的语义信息(车道、交通信号灯、人行横道),这项任务严重依赖于视觉-语言预训练。
提升“复杂场景处理能力”则瞄准了 notorious 的长尾问题。这需要超越模式识别,迈向因果推理与反事实预测。模型必须能够回答诸如“如果那辆电动自行车突然转向,我的安全选择有哪些?”之类的问题。强化学习(RL)技术,特别是离线RL和世界模型,很可能被整合进来。在此,仿真变得至关重要。小鹏自有的仿真平台能够生成数百万个 corner-case 场景,将被用于以安全、可扩展的方式训练和压力测试VLA的决策策略。
对降低成本的追求不仅关乎更便宜的芯片,更关乎算法效率。一个能力更强、泛化性更好的模型,其推理所需计算资源可能反而少于一个脆弱、规则繁多、需要不断处理异常情况的传统架构。关键技术包括模型蒸馏(从大型教师模型创建更小、更快的学生模型)、稀疏化(针对给定输入仅激活网络的部分节点)以及能降低二次复杂度的新型注意力机制。
| 技术特性 | VLA 1.0(当前XNGP) | VLA 2.0 OKR目标 |
|---|---|---|
| 地图依赖 | 高度依赖预构建的高精地图进行定位和语义理解。 | 主要基于视觉,高精地图作为可选备用或验证手段。 |
| 架构 | 大型多模态模型 + 传统规划/控制模块。 | 更真正的端到端,规划深度集成于神经网络输出中。 |
| 核心训练数据 | 基于数百万英里真实道路数据的监督学习 + 仿真。 | 针对长尾场景的大规模仿真 + 强化学习。 |
| 计算重点 | 感知环节推理计算需求高;基于规则的规划。 | 为统一模型的高效推理而优化;可能采用更小、更专用的模型。 |
| 关键创新 | 感知与预测的统一向量空间。 | 在线神经场景表征 & 用于动作生成的因果推理。 |
数据要点: 从VLA 1.0到2.0的过渡,是从一个AI辅助、依赖地图的系统,向一个自力更生、以推理为核心的AI驾驶员的转变。这一技术飞跃的关键不在于原始参数数量,而在于架构的纯粹性和训练范式的转变。
关键参与者与案例研究
小鹏并非在真空中运作。其VLA 2.0的OKR是对全球竞争格局的直接回应,也是一次试图实现跨越的尝试。
特斯拉的全自动驾驶(FSD)V12 是端到端神经网络驾驶系统最显著的标杆。特斯拉取消了超过30万行用于规划和控制的显式C++代码,代之以一个基于数百万视频片段训练出的单一神经网络。其表现,尤其是在复杂城市环境中的表现,证明了该方法的潜力。然而,其不透明性和偶尔不可预测的行为也凸显了风险。小鹏的策略似乎是一条更混合、可能也更谨慎的路径,旨在获得特斯拉的泛化能力,同时可能保留更多可验证的安全层级。
Wayve(英国)和 Waabi(加拿大)是倡导端到端学习模型的纯AI驾驶初创公司。Wayve的“AV2.0”宣言及其用于生成式仿真的GAIA-1世界模型,与小鹏OKR的精神高度契合。Waabi专注于使用其概率世界模型构建闭环、仿真优先的训练范式,这正是解决小鹏所瞄准的长尾场景所需的技术类型。
在中国国内,NIO 也在积极推进其全栈自研的自动驾驶技术,同样强调数据闭环和算法迭代。