元戎启行:要做物理世界的AI基础设施“安卓”

April 2026
physical AIautonomous drivingembodied intelligence归档:April 2026
在2024北京车展上,元戎启行CEO周光宣布公司愿景升级为打造物理世界的AI基础设施。首席科学家阮崇首次公开详解基础模型架构,标志着从自动驾驶向通用具身智能的战略转向,挑战行业狭隘的车辆专用AI堆栈。

元戎启行CEO周光在北京车展发布会上,以一段个人故事开场:2016年一场致命交通事故激发他用AI拯救生命的决心。如今,这一使命已演变为更宏大的目标——构建物理世界的基础AI基础设施。周光认为,当前自动驾驶系统在城市道路上的平均接管里程仅数十公里,仍然过于脆弱。解决方案并非对车辆专用堆栈的渐进式改进,而是一个通用基础模型,能够驱动任何具身系统——汽车、机器人、无人机或工业机械。首席科学家阮崇首次公开演讲,详细阐述了这一基础模型的架构。该模型被设计为硬件无关、端到端的统一神经网络,直接处理原始传感器数据并输出控制指令,采用Transformer架构与新颖的注意力机制,同时处理空间与时间维度。元戎启行通过对抗性域随机化和大规模数据引擎解决“仿真到现实”鸿沟,其愿景是成为通用AI基础设施,让同一模型驱动Robotaxi、配送机器人或仓库无人机。

技术深度解析

元戎启行的基础模型代表了与当前主导自动驾驶领域的模块化、手工工程化管线的彻底决裂。传统系统将感知(物体检测、车道线检测)、预测(轨迹预测)、规划(路径优化)和控制(转向、加速)分离为独立模块,各自独立优化。这种方法创建了脆弱的系统,在边缘场景中失效,并且需要大量工程努力才能适应新环境或硬件。

据首席科学家阮崇介绍,元戎启行的架构是一个统一的端到端神经网络,以原始传感器数据(摄像头、LiDAR、雷达)为输入,直接输出控制指令。该模型在包含真实驾驶日志和仿真数据的大规模数据集上进行端到端训练。这概念上类似于Wayve的GAIA-1和特斯拉FSD v12开创的方法,但元戎启行声称在处理多模态传感器融合和时间推理方面做出了关键的架构创新。

基础模型采用基于Transformer的架构,配备一种新颖的注意力机制,能够联合处理空间和时间维度。这使得模型能够随时间推理环境的动态变化,预测其他智能体的未来状态,并规划安全轨迹。该模型还被设计为硬件无关:通过使用学习到的传感器抽象层,它可以部署在不同的传感器配置和计算平台上。这对于元戎启行成为通用AI基础设施的愿景至关重要,因为它允许同一模型驱动Robotaxi、配送机器人或仓库无人机。

一个关键的技术挑战是“仿真到现实”鸿沟。在仿真中训练成本低且可扩展,但由于物理、光照和传感器噪声的差异,模型在现实世界中部署时常常失败。元戎启行通过一种称为“对抗性域随机化”的技术来解决这一问题,即系统性地变化仿真环境,迫使模型学习不变特征。该公司还使用一个大规模数据引擎,持续从其测试车队收集真实驾驶数据,并用于微调模型。

对于对开源生态系统感兴趣的读者,有几个GitHub仓库探索了相关思想。WayveML/GAIA-1 仓库(10k+星)提供了一个用于自动驾驶的生成式世界模型。NVIDIA的Isaac Sim(5k+星)是一个用于训练具身AI的仿真平台。OpenDriveLab/UniAD(8k+星)是一个统一的自动驾驶框架,将感知、预测和规划结合到单个网络中。这些项目为理解元戎启行所处的技术格局提供了基础。

数据要点: 从模块化到端到端架构的转变不仅仅是工程偏好——它是一场关于数据规模化的赌注。如果元戎启行能够收集并训练比竞争对手多出几个数量级的驾驶数据,其统一模型可能在罕见边缘场景上超越模块化系统。然而,端到端模型以难以调试和验证而闻名,这引发了安全担忧。

| 模型 | 架构 | 传感器输入 | 训练数据 | 城市干预里程 |
|---|---|---|---|---|
| 元戎启行基础模型 | 端到端Transformer | 摄像头+LiDAR+雷达 | 1000万+小时(真实+仿真) | ~50公里(当前) |
| Wayve GAIA-1 | 生成式世界模型 | 仅摄像头 | 200万小时(真实) | ~30公里 |
| 特斯拉FSD v12 | 端到端视觉 | 仅摄像头 | 1亿+小时(真实) | ~100公里 |
| Waymo Driver | 模块化(感知+预测+规划) | 摄像头+LiDAR+雷达 | 2000万+英里(真实) | ~200公里 |

数据要点: 元戎启行当前的干预里程低于Waymo和特斯拉,但该公司认为,随着数据规模化,其基础模型将更快改进,而模块化系统则面临收益递减。赌注在于端到端学习的可扩展性。

关键玩家与案例研究

元戎启行正在进入一个拥挤的自动驾驶和具身AI公司领域,每家公司都有不同的策略。主要竞争对手及其方法如下:

- 特斯拉:垂直整合,拥有庞大的消费者车队收集数据。特斯拉FSD v12是一个端到端的视觉系统。特斯拉拥有规模优势(数百万辆车)和闭环数据管线。然而,其系统与特斯拉硬件绑定,不可授权。
- Waymo:Robotaxi部署的领导者,拥有模块化、安全认证的堆栈。Waymo使用高精地图和严格的验证流程。其系统成本高昂,且不设计用于通用性。
- 百度Apollo:一个提供模块化组件的开源平台。百度已在多个中国城市部署Robotaxi。其商业模式是平台授权,类似于元戎启行提出的方案。
- 小马智行:专注于Robotaxi和卡车运输,采用混合方法。

相关专题

physical AI22 篇相关文章autonomous driving27 篇相关文章embodied intelligence17 篇相关文章

时间归档

April 20262878 篇已发布文章

延伸阅读

3D打印如何揭示AI世界模型的隐藏扩展定律构建理解物理世界AI的竞赛,在一个意想不到的领域找到了试验场:3D打印。AINews获悉,五年硬件构建经验催生了世界模型的新扩展定律,挑战了科技巨头以数据为中心的主流路径。这条硬件优先的道路,可能重新定义我们构建真正智能系统的方式。超越炒作:基础模型如何重塑自动驾驶的核心架构自动驾驶行业正进入一个更趋理性的新阶段。当大模型和“世界模型”引发热议时,真正的竞争正转向底层架构。英伟达GTC大会上的关键演示凸显了战略转向:利用AI基础模型重构整个开发范式。Momenta R7世界模型:80万辆车如何让物理AI走向量产在2026年北京国际车展上,Momenta发布了R7强化学习世界模型,标志着世界模型首次在智能驾驶领域实现量产部署。已有超过80万辆汽车搭载该系统,交付车型超70款,CEO曹旭东向中国AI生态发出号召,打造“东方硅谷”,推动范式从“规则驱动小鹏更名集团,战略转向“物理AI”定义智能出行下半场小鹏汽车正式更名为小鹏集团,创始人何小鹏将其定义为从“智能电动汽车”向“物理AI”的战略跃迁。此举标志着公司致力于构建能够理解并与物理世界交互的基础AI模型,驱动汽车、机器人及飞行载具,在智能出行竞赛中开启全新阶段。

常见问题

这次公司发布“YuanRong Aims to Be the Android of Physical World AI Infrastructure”主要讲了什么?

YuanRong's CEO Zhou Guang opened the company's Beijing Auto Show press conference with a deeply personal story: a fatal traffic accident in 2016 that inspired him to use AI to save…

从“YuanRong base model architecture vs Wayve GAIA-1”看,这家公司的这次发布为什么值得关注?

YuanRong's base model represents a radical departure from the modular, hand-engineered pipelines that dominate autonomous driving today. Traditional systems separate perception (object detection, lane detection), predict…

围绕“YuanRong autonomous driving intervention mileage 2024”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。