小鹏VLA 2.0 OKR曝光：自动驾驶进化的下一站

在近期的一场直播中，小鹏汽车创始人兼CEO何小鹏详细阐述了公司下一代视觉语言行动（VLA）模型的多项目标与关键成果（OKR）。此番公开宣言不仅是一份产品路线图，更是自动驾驶下一阶段竞争的战略纲领。其核心目标聚焦于三大跨越式突破：实现不依赖高精地图的稳健城市导航、大幅提升在复杂及长尾驾驶场景中的性能表现，以及大幅降低系统成本以推动高阶智能驾驶功能在主流市场的普及。此举标志着行业正从基于规则的模块化自动驾驶架构，决定性地转向端到端AI系统。第一代VLA模型已驱动小鹏XNGP智能辅助驾驶系统实现了感知与预测的统一向量空间表达，而第二代VLA的OKR则指向一个更纯粹的端到端架构。这要求模型能够在线构建自身的持久空间理解（即“神经场景表征”或“神经地图”），并融合因果推理与反事实预测能力以应对长尾难题。同时，通过模型蒸馏、稀疏化等算法效率优化，在提升性能的同时降低对算力的需求。小鹏此举也是对全球竞争格局的直接回应，其目标直指特斯拉FSD V12所代表的端到端神经网络驾驶系统，同时借鉴了Wayve、Waabi等纯AI驾驶初创公司在生成式仿真与闭环训练方面的前沿理念。在国内，蔚来等厂商也在积极推进相关技术，共同塑造着以数据驱动和AI原生为核心的新一代自动驾驶范式。

技术深度解析

从小鹏第一代VLA到目标中的第二代模型的演进，代表了一次根本性的架构转变。第一代VLA，即目前驱动XNGP的系统，是一个处理原始传感器数据（主要是摄像头、激光雷达、雷达）并输出结构化驾驶动作的大规模多模态模型。它采用基于Transformer的架构，创建了一个代表驾驶场景的统一向量空间，将视觉特征与语义语言查询（例如“识别可行驶区域”、“预测行人轨迹”）相融合。然而，它仍需与传统基于规则的规划模块协同工作，并常常受其制约，同时高度依赖高精地图的先验信息。

第二代VLA的OKR指向一种更纯粹的端到端路径。“无高精地图城市导航”的目标要求模型能够自行构建持久、在线的空间理解——即一种神经场景表征或“神经地图”。这很可能涉及鸟瞰图（BEV）变换与时序融合方面的创新，通过整合连续的摄像头帧来创建对3D环境的动态、以自我为中心的理解。关键在于，这种表征必须被赋予实时推断出的语义信息（车道、交通信号灯、人行横道），这项任务严重依赖于视觉-语言预训练。

提升“复杂场景处理能力”则瞄准了 notorious 的长尾问题。这需要超越模式识别，迈向因果推理与反事实预测。模型必须能够回答诸如“如果那辆电动自行车突然转向，我的安全选择有哪些？”之类的问题。强化学习（RL）技术，特别是离线RL和世界模型，很可能被整合进来。在此，仿真变得至关重要。小鹏自有的仿真平台能够生成数百万个 corner-case 场景，将被用于以安全、可扩展的方式训练和压力测试VLA的决策策略。

对降低成本的追求不仅关乎更便宜的芯片，更关乎算法效率。一个能力更强、泛化性更好的模型，其推理所需计算资源可能反而少于一个脆弱、规则繁多、需要不断处理异常情况的传统架构。关键技术包括模型蒸馏（从大型教师模型创建更小、更快的学生模型）、稀疏化（针对给定输入仅激活网络的部分节点）以及能降低二次复杂度的新型注意力机制。

| 技术特性 | VLA 1.0（当前XNGP） | VLA 2.0 OKR目标 |
|---|---|---|
| 地图依赖 | 高度依赖预构建的高精地图进行定位和语义理解。 | 主要基于视觉，高精地图作为可选备用或验证手段。 |
| 架构 | 大型多模态模型 + 传统规划/控制模块。 | 更真正的端到端，规划深度集成于神经网络输出中。 |
| 核心训练数据 | 基于数百万英里真实道路数据的监督学习 + 仿真。 | 针对长尾场景的大规模仿真 + 强化学习。 |
| 计算重点 | 感知环节推理计算需求高；基于规则的规划。 | 为统一模型的高效推理而优化；可能采用更小、更专用的模型。 |
| 关键创新 | 感知与预测的统一向量空间。 | 在线神经场景表征 & 用于动作生成的因果推理。 |

数据要点： 从VLA 1.0到2.0的过渡，是从一个AI辅助、依赖地图的系统，向一个自力更生、以推理为核心的AI驾驶员的转变。这一技术飞跃的关键不在于原始参数数量，而在于架构的纯粹性和训练范式的转变。

关键参与者与案例研究

小鹏并非在真空中运作。其VLA 2.0的OKR是对全球竞争格局的直接回应，也是一次试图实现跨越的尝试。

特斯拉的全自动驾驶（FSD）V12 是端到端神经网络驾驶系统最显著的标杆。特斯拉取消了超过30万行用于规划和控制的显式C++代码，代之以一个基于数百万视频片段训练出的单一神经网络。其表现，尤其是在复杂城市环境中的表现，证明了该方法的潜力。然而，其不透明性和偶尔不可预测的行为也凸显了风险。小鹏的策略似乎是一条更混合、可能也更谨慎的路径，旨在获得特斯拉的泛化能力，同时可能保留更多可验证的安全层级。

Wayve（英国）和 Waabi（加拿大）是倡导端到端学习模型的纯AI驾驶初创公司。Wayve的“AV2.0”宣言及其用于生成式仿真的GAIA-1世界模型，与小鹏OKR的精神高度契合。Waabi专注于使用其概率世界模型构建闭环、仿真优先的训练范式，这正是解决小鹏所瞄准的长尾场景所需的技术类型。

在中国国内，NIO 也在积极推进其全栈自研的自动驾驶技术，同样强调数据闭环和算法迭代。

时间归档

延伸阅读

常见问题

这次模型发布“Xpeng's VLA 2.0 OKRs Reveal the Next Phase of Autonomous Driving's Evolution”的核心内容是什么？

In a recent live stream, Xpeng Motors founder and CEO He Xiaopeng outlined multiple Objectives and Key Results (OKRs) for the company's next-generation Vision Language Action (VLA)…

从“How does Xpeng VLA 2.0 differ from Tesla FSD V12 architecture?”看，这个模型发布为什么重要？

The evolution from Xpeng's first-generation VLA to the targeted second-generation model represents a fundamental architectural shift. The first-gen VLA, as deployed in XNGP, is a large-scale multimodal model that process…

围绕“What is the cost target for Xpeng's next-gen autonomous driving system?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。