ETA-VLA突破算力墙：历史记忆如何让自动驾驶变得经济可行

对L4和L5级自动驾驶的追求，长期以来一直受困于一个核心的计算矛盾。为了让车辆安全地导航复杂、动态的环境，其AI不仅需要理解当前的瞬间快照，还必须理解最近的过去——骑行者的轨迹、前车的减速模式、行人瞥向道路的目光。这种时序推理需要分析视频帧序列，对于基于Transformer的视觉-语言-行动模型而言，由于注意力机制随序列长度呈二次方扩展，这项任务的复杂性会急剧爆炸。其结果就是形成一道“算力墙”，使得对量产车进行实时、长上下文视频处理在经济和技术上都不可行。

ETA-VLA，全称高效时序注意力视觉-语言-行动模型，正是为打破这堵墙而生。它通过一种巧妙的双管齐下策略，将长期记忆高效地整合到大型VLA模型中。首先，一个轻量级的时序融合模块将原始视频帧流压缩成一个紧凑的“记忆状态”，丢弃冗余信息，保留对未来决策至关重要的内容。其次，也是更具变革性的一步，是采用稀疏混合专家模型架构。VLA模型的主干由许多专门的“专家”子网络组成。一个门控网络，根据当前压缩的上下文（即记忆状态），仅为每个输入标记激活一两个最相关的专家。这意味着在推理过程中，每次只使用模型总参数的一小部分，从而在保持大型模型知识容量的同时，大幅降低计算需求。

这种效率提升的影响是深远的。它首次使得在车载计算平台上，以可承受的成本实时处理长达数秒甚至更长的视频历史成为可能。这直接转化为更安全、更可预测的驾驶行为：车辆可以更早地察觉“边缘情况”，比如一个孩子可能从停放的车辆后面跑出来，或者一个司机在变道前只是短暂地瞥了一眼后视镜。通过解决算力墙问题，ETA-VLA不仅是一项技术成就；它重新划定了自动驾驶商业可行性的边界，为更广泛地部署真正智能、具备情境感知能力的自动驾驶汽车铺平了道路。

技术深度解析

ETA-VLA的核心是一个旨在将高效时序推理注入大型视觉-语言-行动模型的架构框架。将视频流中的帧简单拼接后输入Transformer的标准方法，在计算上是灾难性的。对于序列长度`L`（帧数 * 每帧的补丁数），自注意力机制的内存和计算复杂度按O(L²)缩放。以10 FPS处理一个5秒的片段，使用标准的ViT分块方法，很容易将`L`推到数万量级，使得实时推理变得不可能。

ETA-VLA的创新在于其分层级的时序压缩方法：

1. 逐帧特征提取与时序融合： 原始视频帧首先由视觉编码器（例如ViT）处理，以提取密集的特征表示。这些逐帧特征随后被送入一个轻量级的时序融合模块。TFM不是一个完整的Transformer；它通常是一个循环网络（如LSTM或GRU），或者一个在更低维潜在空间上运行的小型、专门设计的注意力块。它的任务是将新帧特征与一个运行的“记忆状态”整合，丢弃冗余信息，仅保留对未来决策至关重要的内容。这将一个长历史压缩成一个固定大小的上下文向量。

2. 通过混合专家模型实现条件计算： 这是实现最显著计算节省的地方。大型VLA模型主干被构建为稀疏混合专家模型。在每个Transformer块内部，取代单一的密集前馈网络的是多个专家FFN。一个门控网络，以当前压缩的上下文（TFM的输出）为条件，仅为每个标记激活1或2个专家。在一个拥有100个专家的模型中，这意味着每个标记仅激活1-2%的FFN参数，从而在推理过程中大幅减少FLOPs，同时保持大模型的知识容量。

3. 行动预测头： 稀疏VLA模型的最终输出（现已包含融合的时序理解）由一个轻量级策略头解码为驾驶动作——转向角、加速、刹车。

探索类似概念的相关开源工作包括DriveMLM仓库（研究语言模型辅助的驾驶策略）和VIMA（一个使用多模态提示的通用机器人操作模型）。虽然它们不是ETA-VLA本身，但这些项目突显了业界对高效、具备时序感知能力的具身AI的推动。

此类系统的一个关键基准是其在nuScenes预测任务上的性能与其计算开销的对比。

| 模型架构 | 时序视野 | 碰撞预测准确率 | 平均推理延迟（毫秒） | 估计TFLOPS/帧 |
|-------------------|-----------------|-------------------------------|-----------------------------|------------------------|
| 标准VLA（密集） | 3 秒 | 94.5% | 120 | 150 |
| ETA-VLA（稀疏MoE） | 5 秒 | 95.1% | 45 | ~35 |
| 循环CNN基线 | 2 秒 | 88.2% | 20 | 10 |
| 纯LSTM策略 | 1 秒 | 82.7% | 15 | 5 |

数据要点： 表格揭示了ETA-VLA的关键优势：它在*更长*的时序视野上实现了更高的准确率，同时与密集VLA相比，将推理延迟和计算需求降低了50%以上。它弥合了简单、快速但“笨拙”的模型（LSTM）与强大、缓慢且昂贵的模型（密集VLA）之间的差距。

关键参与者与案例研究

ETA-VLA背后的原理并非凭空出现；它们反映了整个自动驾驶行业的战略转变。领先的公司正汇聚于类似的架构，以驯服时序建模的计算成本。

特斯拉的全自动驾驶计算机与'HydraNets'： 特斯拉一直是高效、面向量产的自动驾驶AI的先驱。他们的FSD计算机运行一个庞大的单一神经网络，该网络在架构上是稀疏的，并采用多任务学习。虽然未公开详细说明为MoE系统，但特斯拉采用共享主干网络、为不同任务（检测、轨迹预测、占据流）配备许多专用输出“头”的方法，是条件计算的一种形式。他们从多摄像头系统后期拼接数据流，转向早期融合的“向量空间”来构建4D时空世界模型，这与ETA-VLA高效时序融合的目标直接呼应。

Wayve的GAIA-1和LINGO-2： 总部位于英国的Wayve公司明确倡导用于驾驶的VLA范式。他们的GAIA-1模型是一个生成式世界模型，通过视频学习以预测合理的未来场景。最近，LINGO-2结合了视觉、语言和行动来解释和评判驾驶行为。这些模型为实时控制而扩展到长视频序列的可扩展性是其核心挑战，这使得ETA-VLA中的技术变得至关重要。

常见问题

这次模型发布“ETA-VLA Breaks the Compute Wall: How Historical Memory Makes Autonomous Driving Affordable”的核心内容是什么？

The pursuit of Level 4 and 5 autonomous driving has long been stymied by a core computational contradiction. For a vehicle to navigate complex, dynamic environments safely, its AI…

从“ETA-VLA vs Tesla HydraNet architecture differences”看，这个模型发布为什么重要？

At its core, ETA-VLA is an architectural framework designed to inject efficient temporal reasoning into large Vision-Language-Action models. The standard approach of naively concatenating frames from a video stream and f…

围绕“open source sparse mixture of experts autonomous driving github”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。