小鹏VLA 2.0 OKR曝光:自动驾驶进化的下一站

March 2026
autonomous driving归档:March 2026
小鹏汽车CEO何小鹏近日通过一系列雄心勃勃的OKR,公开勾勒了公司第二代视觉语言行动(VLA)模型的发展蓝图。这些目标从根本上挑战了自动驾驶的现状,推动行业迈向以端到端AI为核心、降低对昂贵基础设施依赖、并更从容应对现实世界复杂性的未来。

在近期的一场直播中,小鹏汽车创始人兼CEO何小鹏详细阐述了公司下一代视觉语言行动(VLA)模型的多项目标与关键成果(OKR)。此番公开宣言不仅是一份产品路线图,更是自动驾驶下一阶段竞争的战略纲领。其核心目标聚焦于三大跨越式突破:实现不依赖高精地图的稳健城市导航、大幅提升在复杂及长尾驾驶场景中的性能表现,以及大幅降低系统成本以推动高阶智能驾驶功能在主流市场的普及。此举标志着行业正从基于规则的模块化自动驾驶架构,决定性地转向端到端AI系统。第一代VLA模型已驱动小鹏XNGP智能辅助驾驶系统实现了感知与预测的统一向量空间表达,而第二代VLA的OKR则指向一个更纯粹的端到端架构。这要求模型能够在线构建自身的持久空间理解(即“神经场景表征”或“神经地图”),并融合因果推理与反事实预测能力以应对长尾难题。同时,通过模型蒸馏、稀疏化等算法效率优化,在提升性能的同时降低对算力的需求。小鹏此举也是对全球竞争格局的直接回应,其目标直指特斯拉FSD V12所代表的端到端神经网络驾驶系统,同时借鉴了Wayve、Waabi等纯AI驾驶初创公司在生成式仿真与闭环训练方面的前沿理念。在国内,蔚来等厂商也在积极推进相关技术,共同塑造着以数据驱动和AI原生为核心的新一代自动驾驶范式。

技术深度解析

从小鹏第一代VLA到目标中的第二代模型的演进,代表了一次根本性的架构转变。第一代VLA,即目前驱动XNGP的系统,是一个处理原始传感器数据(主要是摄像头、激光雷达、雷达)并输出结构化驾驶动作的大规模多模态模型。它采用基于Transformer的架构,创建了一个代表驾驶场景的统一向量空间,将视觉特征与语义语言查询(例如“识别可行驶区域”、“预测行人轨迹”)相融合。然而,它仍需与传统基于规则的规划模块协同工作,并常常受其制约,同时高度依赖高精地图的先验信息。

第二代VLA的OKR指向一种更纯粹的端到端路径。“无高精地图城市导航”的目标要求模型能够自行构建持久、在线的空间理解——即一种神经场景表征或“神经地图”。这很可能涉及鸟瞰图(BEV)变换与时序融合方面的创新,通过整合连续的摄像头帧来创建对3D环境的动态、以自我为中心的理解。关键在于,这种表征必须被赋予实时推断出的语义信息(车道、交通信号灯、人行横道),这项任务严重依赖于视觉-语言预训练。

提升“复杂场景处理能力”则瞄准了 notorious 的长尾问题。这需要超越模式识别,迈向因果推理与反事实预测。模型必须能够回答诸如“如果那辆电动自行车突然转向,我的安全选择有哪些?”之类的问题。强化学习(RL)技术,特别是离线RL和世界模型,很可能被整合进来。在此,仿真变得至关重要。小鹏自有的仿真平台能够生成数百万个 corner-case 场景,将被用于以安全、可扩展的方式训练和压力测试VLA的决策策略。

对降低成本的追求不仅关乎更便宜的芯片,更关乎算法效率。一个能力更强、泛化性更好的模型,其推理所需计算资源可能反而少于一个脆弱、规则繁多、需要不断处理异常情况的传统架构。关键技术包括模型蒸馏(从大型教师模型创建更小、更快的学生模型)、稀疏化(针对给定输入仅激活网络的部分节点)以及能降低二次复杂度的新型注意力机制。

| 技术特性 | VLA 1.0(当前XNGP) | VLA 2.0 OKR目标 |
|---|---|---|
| 地图依赖 | 高度依赖预构建的高精地图进行定位和语义理解。 | 主要基于视觉,高精地图作为可选备用或验证手段。 |
| 架构 | 大型多模态模型 + 传统规划/控制模块。 | 更真正的端到端,规划深度集成于神经网络输出中。 |
| 核心训练数据 | 基于数百万英里真实道路数据的监督学习 + 仿真。 | 针对长尾场景的大规模仿真 + 强化学习。 |
| 计算重点 | 感知环节推理计算需求高;基于规则的规划。 | 为统一模型的高效推理而优化;可能采用更小、更专用的模型。 |
| 关键创新 | 感知与预测的统一向量空间。 | 在线神经场景表征 & 用于动作生成的因果推理。 |

数据要点: 从VLA 1.0到2.0的过渡,是从一个AI辅助、依赖地图的系统,向一个自力更生、以推理为核心的AI驾驶员的转变。这一技术飞跃的关键不在于原始参数数量,而在于架构的纯粹性和训练范式的转变。

关键参与者与案例研究

小鹏并非在真空中运作。其VLA 2.0的OKR是对全球竞争格局的直接回应,也是一次试图实现跨越的尝试。

特斯拉的全自动驾驶(FSD)V12 是端到端神经网络驾驶系统最显著的标杆。特斯拉取消了超过30万行用于规划和控制的显式C++代码,代之以一个基于数百万视频片段训练出的单一神经网络。其表现,尤其是在复杂城市环境中的表现,证明了该方法的潜力。然而,其不透明性和偶尔不可预测的行为也凸显了风险。小鹏的策略似乎是一条更混合、可能也更谨慎的路径,旨在获得特斯拉的泛化能力,同时可能保留更多可验证的安全层级。

Wayve(英国)和 Waabi(加拿大)是倡导端到端学习模型的纯AI驾驶初创公司。Wayve的“AV2.0”宣言及其用于生成式仿真的GAIA-1世界模型,与小鹏OKR的精神高度契合。Waabi专注于使用其概率世界模型构建闭环、仿真优先的训练范式,这正是解决小鹏所瞄准的长尾场景所需的技术类型。

在中国国内,NIO 也在积极推进其全栈自研的自动驾驶技术,同样强调数据闭环和算法迭代。

相关专题

autonomous driving13 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

Yuanrong Qixing Proposes Foundation Model to Overhaul Autonomous Driving at GTCAt NVIDIA's GTC conference, autonomous driving company Yuanrong Qixing unveiled a vision to rebuild the autonomous drivi超越炒作:基础模型如何重塑自动驾驶的核心架构自动驾驶行业正进入一个更趋理性的新阶段。当大模型和“世界模型”引发热议时,真正的竞争正转向底层架构。英伟达GTC大会上的关键演示凸显了战略转向:利用AI基础模型重构整个开发范式。日本四大巨头AI联盟:软银、本田、索尼、NEC能否超越历史桎梏?日本四大工业巨头——软银、本田、索尼与NEC——以平等持股、不设领导者的方式组建AI联盟,彻底颠覆传统合作模式。这一战略豪赌旨在重振日本在全球AI竞赛中的地位。然而,共识驱动的决策机制是否会重蹈过往僵局,仍是未知数。智能体AI革命:新芯片、千亿资本与系统韧性的三重挑战AI产业正经历根本性蜕变——从被动模型转向主动目标驱动的智能体。这一由林俊旸等领军人物倡导的范式转移,正引发针对下一代芯片与基础设施的千亿级投资浪潮,同时暴露出部署与战略层面的关键脆弱性,这将定义下一轮竞争的核心疆域。

常见问题

这次模型发布“Xpeng's VLA 2.0 OKRs Reveal the Next Phase of Autonomous Driving's Evolution”的核心内容是什么?

In a recent live stream, Xpeng Motors founder and CEO He Xiaopeng outlined multiple Objectives and Key Results (OKRs) for the company's next-generation Vision Language Action (VLA)…

从“How does Xpeng VLA 2.0 differ from Tesla FSD V12 architecture?”看,这个模型发布为什么重要?

The evolution from Xpeng's first-generation VLA to the targeted second-generation model represents a fundamental architectural shift. The first-gen VLA, as deployed in XNGP, is a large-scale multimodal model that process…

围绕“What is the cost target for Xpeng's next-gen autonomous driving system?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。