DeepSeek核心作者加盟元戎启行打造VLA大模型，研发效率飙升10倍

总部位于深圳的自动驾驶初创公司元戎启行（DeepRoute）正式发布其首个视觉-语言-行动（VLA）基础模型，这一里程碑由DeepSeek V4核心贡献者阮崇主导完成。VLA模型将视觉感知、语言推理与行动输出统一为单个端到端神经网络，彻底消除了传统模块化架构（感知、预测、规划、控制）中固有的误差累积问题。通过利用大语言模型内嵌的世界知识，系统能够直接将传感器数据和自然语言指令转化为驾驶动作。元戎启行宣称，由于省去了人工中间特征标注环节，并且模型可直接从人类驾驶演示中学习驾驶策略，研发效率实现了10倍提升。

技术深度解析

元戎启行的VLA模型是对传统自动驾驶技术栈的一次根本性颠覆。传统系统依赖一系列专门模块的级联：目标检测、语义分割、轨迹预测、运动规划和底层控制。每个模块独立训练，通常需要人工标注中间标签（如边界框、车道线、占用网格），误差会向下游传播，形成难以应对边缘场景的脆弱系统。

VLA架构将这一流水线压缩为单个基于Transformer的神经网络。模型接收原始多模态传感器数据（摄像头、激光雷达、毫米波雷达）和可选的高级语言指令（例如“在下一个路口左转”），直接输出控制信号——转向角、油门、刹车——无需任何中间符号表示。这是通过将整个驾驶任务视为序列到序列问题实现的：来自视觉编码器（很可能是ViT变体）的视觉令牌与语言令牌拼接后，输入因果Transformer解码器，自回归地生成行动令牌。

一个关键创新在于跨模态注意力机制，它将视觉特征与语言概念对齐。例如，如果语言指令是“给行人让行”，模型会学会关注视野中的相关区域并相应调整行动输出。这与传统系统截然不同——传统系统中，独立的规则引擎会解释指令并覆盖规划器的决策。

10倍研发效率提升源于多个因素：
- 去除人工标注：不再需要人工标注的边界框、车道线或交通灯状态。模型直接从原始传感器数据和人类驾驶演示中学习。
- 统一训练循环：单个损失函数（例如模仿学习+强化学习）端到端优化整个网络，无需调整独立模块。
- 从LLM迁移学习：语言骨干网络可从DeepSeek V4等预训练模型初始化，提供丰富的世界知识先验（交通规则、常识、空间推理），否则需要大量训练数据才能获得。

相关开源仓库：
- DeepSeek V4：提供推理骨干的基础LLM。虽然未直接开源，但其架构（混合专家模型，1.5万亿总参数）已有文档记录，并影响了VLA模型的设计。
- OpenVLA：来自斯坦福大学和加州大学伯克利分校的开源VLA模型（GitHub上8.6k星），作为架构参考。元戎启行的模型很可能在此基础上进行了驾驶领域的特定适配。
- NVIDIA的DriveVLA：一个研究原型，将视觉编码器与语言模型结合实现端到端驾驶。元戎启行的模型似乎是类似思路的生产级实现。

性能基准测试（内部数据）：
| 指标 | 传统模块化系统 | 元戎启行VLA模型 | 提升幅度 |
|---|---|---|---|
| 研发迭代周期（天） | 30 | 3 | 10倍 |
| 数据标注成本（美元/公里） | 0.50 | 0.05 | 10倍 |
| 边缘场景检测率（%） | 72 | 94 | +22个百分点 |
| 模型参数量 | ~5亿（各模块总和） | ~20亿（单个模型） | 4倍 |
| 推理延迟（毫秒） | 45 | 38 | 快15% |

数据要点： 研发迭代周期和数据标注成本10倍提升是 headline 指标，但边缘场景检测率提升22个百分点可能更具意义。这表明统一模型在罕见场景下泛化能力更强，而这正是自动驾驶领域的圣杯。

关键参与者与案例研究

元戎启行（DeepRoute）： 成立于2019年，元戎启行在中国自动驾驶领域一直较为低调，专注于L4级自动驾驶出租车和商用车辆。该公司此前依赖模块化技术栈，传感器来自禾赛科技，计算平台来自NVIDIA。VLA模型标志着其向以模型为中心的AI的战略转型。元戎启行迄今已融资约3亿美元，投资者包括阿里巴巴、上汽集团和GSR Ventures。

阮崇： 作为DeepSeek V4的四位核心作者之一，阮崇在大型Transformer训练和混合专家模型架构方面拥有深厚专长。他从DeepSeek（纯AI研究实验室）转投元戎启行（机器人公司），代表着一个更广泛的趋势：顶尖LLM研究人员正纷纷转向具身AI初创公司，以弥合语言理解与物理行动之间的鸿沟。

竞争格局：
| 公司 | 模型 | 方法 | 关键差异化 |
|---|---|---|---|
| 元戎启行 | VLA基础模型 | 端到端Transformer | 统一视觉-语言-行动；10倍效率 |
| Waymo | Waymo Driver | 模块化（感知+规划器+规则） | 经过验证的安全记录；10年以上数据积累 |

时间归档

延伸阅读

常见问题

这次模型发布“DeepSeek Core Author Joins DeepRoute to Build VLA Model, Boosting R&D Efficiency 10x”的核心内容是什么？

DeepRoute, a Shenzhen-based autonomous driving startup, has released its first Vision-Language-Action (VLA) foundation model, a milestone achieved under the leadership of Ruan Chon…

从“DeepRoute VLA model vs Tesla FSD end-to-end comparison”看，这个模型发布为什么重要？

The DeepRoute VLA model represents a radical departure from the conventional autonomous driving stack. Traditional systems rely on a cascade of specialized modules: object detection, semantic segmentation, trajectory pre…

围绕“How DeepSeek V4 architecture is adapted for autonomous driving”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。