DeepSeek核心作者加盟元戎启行打造VLA大模型,研发效率飙升10倍

April 2026
DeepSeek V4embodied intelligenceautonomous driving归档:April 2026
元戎启行发布首个视觉-语言-行动(VLA)基础模型,由DeepSeek V4四位核心作者之一阮崇领衔。该模型将大语言模型推理与具身行动控制深度融合,实现研发效率10倍提升,标志着自动驾驶从模块化走向端到端统一智能的范式转变。

总部位于深圳的自动驾驶初创公司元戎启行(DeepRoute)正式发布其首个视觉-语言-行动(VLA)基础模型,这一里程碑由DeepSeek V4核心贡献者阮崇主导完成。VLA模型将视觉感知、语言推理与行动输出统一为单个端到端神经网络,彻底消除了传统模块化架构(感知、预测、规划、控制)中固有的误差累积问题。通过利用大语言模型内嵌的世界知识,系统能够直接将传感器数据和自然语言指令转化为驾驶动作。元戎启行宣称,由于省去了人工中间特征标注环节,并且模型可直接从人类驾驶演示中学习驾驶策略,研发效率实现了10倍提升。

技术深度解析

元戎启行的VLA模型是对传统自动驾驶技术栈的一次根本性颠覆。传统系统依赖一系列专门模块的级联:目标检测、语义分割、轨迹预测、运动规划和底层控制。每个模块独立训练,通常需要人工标注中间标签(如边界框、车道线、占用网格),误差会向下游传播,形成难以应对边缘场景的脆弱系统。

VLA架构将这一流水线压缩为单个基于Transformer的神经网络。模型接收原始多模态传感器数据(摄像头、激光雷达、毫米波雷达)和可选的高级语言指令(例如“在下一个路口左转”),直接输出控制信号——转向角、油门、刹车——无需任何中间符号表示。这是通过将整个驾驶任务视为序列到序列问题实现的:来自视觉编码器(很可能是ViT变体)的视觉令牌与语言令牌拼接后,输入因果Transformer解码器,自回归地生成行动令牌。

一个关键创新在于跨模态注意力机制,它将视觉特征与语言概念对齐。例如,如果语言指令是“给行人让行”,模型会学会关注视野中的相关区域并相应调整行动输出。这与传统系统截然不同——传统系统中,独立的规则引擎会解释指令并覆盖规划器的决策。

10倍研发效率提升源于多个因素:
- 去除人工标注:不再需要人工标注的边界框、车道线或交通灯状态。模型直接从原始传感器数据和人类驾驶演示中学习。
- 统一训练循环:单个损失函数(例如模仿学习+强化学习)端到端优化整个网络,无需调整独立模块。
- 从LLM迁移学习:语言骨干网络可从DeepSeek V4等预训练模型初始化,提供丰富的世界知识先验(交通规则、常识、空间推理),否则需要大量训练数据才能获得。

相关开源仓库:
- DeepSeek V4:提供推理骨干的基础LLM。虽然未直接开源,但其架构(混合专家模型,1.5万亿总参数)已有文档记录,并影响了VLA模型的设计。
- OpenVLA:来自斯坦福大学和加州大学伯克利分校的开源VLA模型(GitHub上8.6k星),作为架构参考。元戎启行的模型很可能在此基础上进行了驾驶领域的特定适配。
- NVIDIA的DriveVLA:一个研究原型,将视觉编码器与语言模型结合实现端到端驾驶。元戎启行的模型似乎是类似思路的生产级实现。

性能基准测试(内部数据):
| 指标 | 传统模块化系统 | 元戎启行VLA模型 | 提升幅度 |
|---|---|---|---|
| 研发迭代周期(天) | 30 | 3 | 10倍 |
| 数据标注成本(美元/公里) | 0.50 | 0.05 | 10倍 |
| 边缘场景检测率(%) | 72 | 94 | +22个百分点 |
| 模型参数量 | ~5亿(各模块总和) | ~20亿(单个模型) | 4倍 |
| 推理延迟(毫秒) | 45 | 38 | 快15% |

数据要点: 研发迭代周期和数据标注成本10倍提升是 headline 指标,但边缘场景检测率提升22个百分点可能更具意义。这表明统一模型在罕见场景下泛化能力更强,而这正是自动驾驶领域的圣杯。

关键参与者与案例研究

元戎启行(DeepRoute): 成立于2019年,元戎启行在中国自动驾驶领域一直较为低调,专注于L4级自动驾驶出租车和商用车辆。该公司此前依赖模块化技术栈,传感器来自禾赛科技,计算平台来自NVIDIA。VLA模型标志着其向以模型为中心的AI的战略转型。元戎启行迄今已融资约3亿美元,投资者包括阿里巴巴、上汽集团和GSR Ventures。

阮崇: 作为DeepSeek V4的四位核心作者之一,阮崇在大型Transformer训练和混合专家模型架构方面拥有深厚专长。他从DeepSeek(纯AI研究实验室)转投元戎启行(机器人公司),代表着一个更广泛的趋势:顶尖LLM研究人员正纷纷转向具身AI初创公司,以弥合语言理解与物理行动之间的鸿沟。

竞争格局:
| 公司 | 模型 | 方法 | 关键差异化 |
|---|---|---|---|
| 元戎启行 | VLA基础模型 | 端到端Transformer | 统一视觉-语言-行动;10倍效率 |
| Waymo | Waymo Driver | 模块化(感知+规划器+规则) | 经过验证的安全记录;10年以上数据积累 |

相关专题

DeepSeek V432 篇相关文章embodied intelligence17 篇相关文章autonomous driving27 篇相关文章

时间归档

April 20262780 篇已发布文章

延伸阅读

自动驾驶的工业AI方法论,正在“入侵”具身智能一次关键的高管变动,揭示了一场深刻的技术迁徙。小鹏汽车自动驾驶前负责人李力耘已加入机器人初创公司中清,担任CTO。这标志着自动驾驶领域成熟的“工业AI”范式正被系统性地注入新兴的具身智能领域,旨在为智能机器人注入工程化的可靠性与规模化能力。DeepSeek V4的秘密武器:稀疏注意力革命,推理成本直降40%DeepSeek V4的技术报告隐藏着一枚重磅炸弹:一种全新的稀疏注意力机制,能在推理过程中动态剪枝无关词元,将计算成本削减近40%,同时保持长上下文精度。这是DeepSeek打破“模型越大,价格越高”铁律的全力一搏。DeepSeek V4 永久降价:缓存命中优惠让编程成本狂降 83%DeepSeek 宣布永久下调 V4 模型价格,其中缓存命中价格额外降低 90%,推动整体编程成本下降 83%。这一战略举措将高性能大语言模型推理成本推向新低,有望引爆一波 AI 原生应用浪潮。华为ADS 5:25亿美元豪赌,改写自动驾驶游戏规则华为发布ADS 5,彻底颠覆传统自动驾驶架构。该系统以模拟物理因果关系的世界模型取代规则逻辑,依托每年高达25亿美元的研发投入,试图带领行业跃入L4级“预测未来”时代。

常见问题

这次模型发布“DeepSeek Core Author Joins DeepRoute to Build VLA Model, Boosting R&D Efficiency 10x”的核心内容是什么?

DeepRoute, a Shenzhen-based autonomous driving startup, has released its first Vision-Language-Action (VLA) foundation model, a milestone achieved under the leadership of Ruan Chon…

从“DeepRoute VLA model vs Tesla FSD end-to-end comparison”看,这个模型发布为什么重要?

The DeepRoute VLA model represents a radical departure from the conventional autonomous driving stack. Traditional systems rely on a cascade of specialized modules: object detection, semantic segmentation, trajectory pre…

围绕“How DeepSeek V4 architecture is adapted for autonomous driving”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。