技术深度解析
元戎启行的VLA模型是对传统自动驾驶技术栈的一次根本性颠覆。传统系统依赖一系列专门模块的级联:目标检测、语义分割、轨迹预测、运动规划和底层控制。每个模块独立训练,通常需要人工标注中间标签(如边界框、车道线、占用网格),误差会向下游传播,形成难以应对边缘场景的脆弱系统。
VLA架构将这一流水线压缩为单个基于Transformer的神经网络。模型接收原始多模态传感器数据(摄像头、激光雷达、毫米波雷达)和可选的高级语言指令(例如“在下一个路口左转”),直接输出控制信号——转向角、油门、刹车——无需任何中间符号表示。这是通过将整个驾驶任务视为序列到序列问题实现的:来自视觉编码器(很可能是ViT变体)的视觉令牌与语言令牌拼接后,输入因果Transformer解码器,自回归地生成行动令牌。
一个关键创新在于跨模态注意力机制,它将视觉特征与语言概念对齐。例如,如果语言指令是“给行人让行”,模型会学会关注视野中的相关区域并相应调整行动输出。这与传统系统截然不同——传统系统中,独立的规则引擎会解释指令并覆盖规划器的决策。
10倍研发效率提升源于多个因素:
- 去除人工标注:不再需要人工标注的边界框、车道线或交通灯状态。模型直接从原始传感器数据和人类驾驶演示中学习。
- 统一训练循环:单个损失函数(例如模仿学习+强化学习)端到端优化整个网络,无需调整独立模块。
- 从LLM迁移学习:语言骨干网络可从DeepSeek V4等预训练模型初始化,提供丰富的世界知识先验(交通规则、常识、空间推理),否则需要大量训练数据才能获得。
相关开源仓库:
- DeepSeek V4:提供推理骨干的基础LLM。虽然未直接开源,但其架构(混合专家模型,1.5万亿总参数)已有文档记录,并影响了VLA模型的设计。
- OpenVLA:来自斯坦福大学和加州大学伯克利分校的开源VLA模型(GitHub上8.6k星),作为架构参考。元戎启行的模型很可能在此基础上进行了驾驶领域的特定适配。
- NVIDIA的DriveVLA:一个研究原型,将视觉编码器与语言模型结合实现端到端驾驶。元戎启行的模型似乎是类似思路的生产级实现。
性能基准测试(内部数据):
| 指标 | 传统模块化系统 | 元戎启行VLA模型 | 提升幅度 |
|---|---|---|---|
| 研发迭代周期(天) | 30 | 3 | 10倍 |
| 数据标注成本(美元/公里) | 0.50 | 0.05 | 10倍 |
| 边缘场景检测率(%) | 72 | 94 | +22个百分点 |
| 模型参数量 | ~5亿(各模块总和) | ~20亿(单个模型) | 4倍 |
| 推理延迟(毫秒) | 45 | 38 | 快15% |
数据要点: 研发迭代周期和数据标注成本10倍提升是 headline 指标,但边缘场景检测率提升22个百分点可能更具意义。这表明统一模型在罕见场景下泛化能力更强,而这正是自动驾驶领域的圣杯。
关键参与者与案例研究
元戎启行(DeepRoute): 成立于2019年,元戎启行在中国自动驾驶领域一直较为低调,专注于L4级自动驾驶出租车和商用车辆。该公司此前依赖模块化技术栈,传感器来自禾赛科技,计算平台来自NVIDIA。VLA模型标志着其向以模型为中心的AI的战略转型。元戎启行迄今已融资约3亿美元,投资者包括阿里巴巴、上汽集团和GSR Ventures。
阮崇: 作为DeepSeek V4的四位核心作者之一,阮崇在大型Transformer训练和混合专家模型架构方面拥有深厚专长。他从DeepSeek(纯AI研究实验室)转投元戎启行(机器人公司),代表着一个更广泛的趋势:顶尖LLM研究人员正纷纷转向具身AI初创公司,以弥合语言理解与物理行动之间的鸿沟。
竞争格局:
| 公司 | 模型 | 方法 | 关键差异化 |
|---|---|---|---|
| 元戎启行 | VLA基础模型 | 端到端Transformer | 统一视觉-语言-行动;10倍效率 |
| Waymo | Waymo Driver | 模块化(感知+规划器+规则) | 经过验证的安全记录;10年以上数据积累 |