技术深度解析
元戎启行的基础模型代表了与当前主导自动驾驶领域的模块化、手工工程化管线的彻底决裂。传统系统将感知(物体检测、车道线检测)、预测(轨迹预测)、规划(路径优化)和控制(转向、加速)分离为独立模块,各自独立优化。这种方法创建了脆弱的系统,在边缘场景中失效,并且需要大量工程努力才能适应新环境或硬件。
据首席科学家阮崇介绍,元戎启行的架构是一个统一的端到端神经网络,以原始传感器数据(摄像头、LiDAR、雷达)为输入,直接输出控制指令。该模型在包含真实驾驶日志和仿真数据的大规模数据集上进行端到端训练。这概念上类似于Wayve的GAIA-1和特斯拉FSD v12开创的方法,但元戎启行声称在处理多模态传感器融合和时间推理方面做出了关键的架构创新。
基础模型采用基于Transformer的架构,配备一种新颖的注意力机制,能够联合处理空间和时间维度。这使得模型能够随时间推理环境的动态变化,预测其他智能体的未来状态,并规划安全轨迹。该模型还被设计为硬件无关:通过使用学习到的传感器抽象层,它可以部署在不同的传感器配置和计算平台上。这对于元戎启行成为通用AI基础设施的愿景至关重要,因为它允许同一模型驱动Robotaxi、配送机器人或仓库无人机。
一个关键的技术挑战是“仿真到现实”鸿沟。在仿真中训练成本低且可扩展,但由于物理、光照和传感器噪声的差异,模型在现实世界中部署时常常失败。元戎启行通过一种称为“对抗性域随机化”的技术来解决这一问题,即系统性地变化仿真环境,迫使模型学习不变特征。该公司还使用一个大规模数据引擎,持续从其测试车队收集真实驾驶数据,并用于微调模型。
对于对开源生态系统感兴趣的读者,有几个GitHub仓库探索了相关思想。WayveML/GAIA-1 仓库(10k+星)提供了一个用于自动驾驶的生成式世界模型。NVIDIA的Isaac Sim(5k+星)是一个用于训练具身AI的仿真平台。OpenDriveLab/UniAD(8k+星)是一个统一的自动驾驶框架,将感知、预测和规划结合到单个网络中。这些项目为理解元戎启行所处的技术格局提供了基础。
数据要点: 从模块化到端到端架构的转变不仅仅是工程偏好——它是一场关于数据规模化的赌注。如果元戎启行能够收集并训练比竞争对手多出几个数量级的驾驶数据,其统一模型可能在罕见边缘场景上超越模块化系统。然而,端到端模型以难以调试和验证而闻名,这引发了安全担忧。
| 模型 | 架构 | 传感器输入 | 训练数据 | 城市干预里程 |
|---|---|---|---|---|
| 元戎启行基础模型 | 端到端Transformer | 摄像头+LiDAR+雷达 | 1000万+小时(真实+仿真) | ~50公里(当前) |
| Wayve GAIA-1 | 生成式世界模型 | 仅摄像头 | 200万小时(真实) | ~30公里 |
| 特斯拉FSD v12 | 端到端视觉 | 仅摄像头 | 1亿+小时(真实) | ~100公里 |
| Waymo Driver | 模块化(感知+预测+规划) | 摄像头+LiDAR+雷达 | 2000万+英里(真实) | ~200公里 |
数据要点: 元戎启行当前的干预里程低于Waymo和特斯拉,但该公司认为,随着数据规模化,其基础模型将更快改进,而模块化系统则面临收益递减。赌注在于端到端学习的可扩展性。
关键玩家与案例研究
元戎启行正在进入一个拥挤的自动驾驶和具身AI公司领域,每家公司都有不同的策略。主要竞争对手及其方法如下:
- 特斯拉:垂直整合,拥有庞大的消费者车队收集数据。特斯拉FSD v12是一个端到端的视觉系统。特斯拉拥有规模优势(数百万辆车)和闭环数据管线。然而,其系统与特斯拉硬件绑定,不可授权。
- Waymo:Robotaxi部署的领导者,拥有模块化、安全认证的堆栈。Waymo使用高精地图和严格的验证流程。其系统成本高昂,且不设计用于通用性。
- 百度Apollo:一个提供模块化组件的开源平台。百度已在多个中国城市部署Robotaxi。其商业模式是平台授权,类似于元戎启行提出的方案。
- 小马智行:专注于Robotaxi和卡车运输,采用混合方法。