技术深度解析
ETA-VLA的核心是一个旨在将高效时序推理注入大型视觉-语言-行动模型的架构框架。将视频流中的帧简单拼接后输入Transformer的标准方法,在计算上是灾难性的。对于序列长度`L`(帧数 * 每帧的补丁数),自注意力机制的内存和计算复杂度按O(L²)缩放。以10 FPS处理一个5秒的片段,使用标准的ViT分块方法,很容易将`L`推到数万量级,使得实时推理变得不可能。
ETA-VLA的创新在于其分层级的时序压缩方法:
1. 逐帧特征提取与时序融合: 原始视频帧首先由视觉编码器(例如ViT)处理,以提取密集的特征表示。这些逐帧特征随后被送入一个轻量级的时序融合模块。TFM不是一个完整的Transformer;它通常是一个循环网络(如LSTM或GRU),或者一个在更低维潜在空间上运行的小型、专门设计的注意力块。它的任务是将新帧特征与一个运行的“记忆状态”整合,丢弃冗余信息,仅保留对未来决策至关重要的内容。这将一个长历史压缩成一个固定大小的上下文向量。
2. 通过混合专家模型实现条件计算: 这是实现最显著计算节省的地方。大型VLA模型主干被构建为稀疏混合专家模型。在每个Transformer块内部,取代单一的密集前馈网络的是多个专家FFN。一个门控网络,以当前压缩的上下文(TFM的输出)为条件,仅为每个标记激活1或2个专家。在一个拥有100个专家的模型中,这意味着每个标记仅激活1-2%的FFN参数,从而在推理过程中大幅减少FLOPs,同时保持大模型的知识容量。
3. 行动预测头: 稀疏VLA模型的最终输出(现已包含融合的时序理解)由一个轻量级策略头解码为驾驶动作——转向角、加速、刹车。
探索类似概念的相关开源工作包括DriveMLM仓库(研究语言模型辅助的驾驶策略)和VIMA(一个使用多模态提示的通用机器人操作模型)。虽然它们不是ETA-VLA本身,但这些项目突显了业界对高效、具备时序感知能力的具身AI的推动。
此类系统的一个关键基准是其在nuScenes预测任务上的性能与其计算开销的对比。
| 模型架构 | 时序视野 | 碰撞预测准确率 | 平均推理延迟(毫秒) | 估计TFLOPS/帧 |
|-------------------|-----------------|-------------------------------|-----------------------------|------------------------|
| 标准VLA(密集) | 3 秒 | 94.5% | 120 | 150 |
| ETA-VLA(稀疏MoE) | 5 秒 | 95.1% | 45 | ~35 |
| 循环CNN基线 | 2 秒 | 88.2% | 20 | 10 |
| 纯LSTM策略 | 1 秒 | 82.7% | 15 | 5 |
数据要点: 表格揭示了ETA-VLA的关键优势:它在*更长*的时序视野上实现了更高的准确率,同时与密集VLA相比,将推理延迟和计算需求降低了50%以上。它弥合了简单、快速但“笨拙”的模型(LSTM)与强大、缓慢且昂贵的模型(密集VLA)之间的差距。
关键参与者与案例研究
ETA-VLA背后的原理并非凭空出现;它们反映了整个自动驾驶行业的战略转变。领先的公司正汇聚于类似的架构,以驯服时序建模的计算成本。
特斯拉的全自动驾驶计算机与'HydraNets': 特斯拉一直是高效、面向量产的自动驾驶AI的先驱。他们的FSD计算机运行一个庞大的单一神经网络,该网络在架构上是稀疏的,并采用多任务学习。虽然未公开详细说明为MoE系统,但特斯拉采用共享主干网络、为不同任务(检测、轨迹预测、占据流)配备许多专用输出“头”的方法,是条件计算的一种形式。他们从多摄像头系统后期拼接数据流,转向早期融合的“向量空间”来构建4D时空世界模型,这与ETA-VLA高效时序融合的目标直接呼应。
Wayve的GAIA-1和LINGO-2: 总部位于英国的Wayve公司明确倡导用于驾驶的VLA范式。他们的GAIA-1模型是一个生成式世界模型,通过视频学习以预测合理的未来场景。最近,LINGO-2结合了视觉、语言和行动来解释和评判驾驶行为。这些模型为实时控制而扩展到长视频序列的可扩展性是其核心挑战,这使得ETA-VLA中的技术变得至关重要。