StripedHyena：门控卷积能否终结Transformer统治？

2026年6月22日 06:03 AINews GitHub June 2026

⭐ 433

Together Computer 发布了 StripedHyena，一种摒弃传统自注意力机制、采用门控卷积与 Hyena 算子的开源架构。这一创新大幅降低了计算成本，并能处理远超 Transformer 能力范围的长序列，有望改写长上下文 AI 的规则。

AI 社区长期以来默认 Transformer 的自注意力机制是实现顶尖性能的唯一可行路径。Together Computer 的 StripedHyena 直接挑战了这一正统观念。通过用门控卷积与 Hyena 算子的组合替代二次复杂度的注意力机制，StripedHyena 实现了亚二次缩放，使模型能以极低的内存和计算预算处理超过 100 万 token 的序列。其架构名称源于“条纹状”设计——并行处理输入的不同频带——以及 Hyena 算子，一种数据控制的循环机制，能学习聚焦于相关上下文。早期基准测试显示，StripedHyena 在长上下文任务上已匹配甚至超越 Transformer 基线，标志着非注意力架构首次在 70B 参数规模上兼具质量与效率。

技术深度解析

StripedHyena 的核心创新在于用门控卷积与 Hyena 算子的混合体替代 Transformer 的自注意力。要理解其重要性，需先回顾 Transformer 的根本瓶颈：自注意力随序列长度呈二次方缩放。对于 N 个 token 的序列，注意力矩阵为 N×N，导致 O(N²) 的计算与内存消耗。这使得处理超过 10 万 token 的序列对大多数组织而言成本高昂。

StripedHyena 完全绕开了这一问题。其架构基于两大关键组件：

1. 门控卷积：这并非标准的图像处理卷积。它们是带有学习门控机制的一维深度可分离卷积，允许模型在不同位置选择性地放大或抑制特征。门控引入了数据依赖元素，使卷积能够聚焦于相关上下文，而非平等对待所有位置。这对代码生成等任务至关重要——模型需关注数百 token 之外的特定变量定义。

2. Hyena 算子：这才是真正的明星。Hyena 算子由斯坦福大学与 Together Computer 的研究人员在先前论文中提出，是一种实现亚二次复杂度的数据控制循环。其工作原理是将类似注意力的计算分解为一系列隐式卷积，其中滤波器权重本身由一个小型神经网络根据输入生成。这使得算子无需显式计算完整注意力矩阵即可学习长程依赖。实际中，根据配置不同，复杂度可降至 O(N log N) 甚至 O(N)。

名称中的“Striped”（条纹状）指代一种多尺度处理策略：输入被分割成多个“条纹”或频带，每个频带由一组具有不同感受野的 Hyena 算子处理。这类似于人耳在不同频率范围内处理声音的方式。通过并行化这些条纹，StripedHyena 能同时捕捉细粒度局部模式与广泛的全局结构。

基准性能

| 模型 | 架构 | MMLU（5-shot） | Long-Range Arena（平均） | 吞吐量（token/秒） | 最大上下文长度 |
|---|---|---|---|---|---|
| GPT-4（近似） | Transformer（MoE） | 86.4 | 不适用 | ~100 | 128k |
| Llama 3 70B | Transformer | 82.0 | 65.2 | ~500 | 128k |
| StripedHyena 7B | 门控卷积 + Hyena | 68.5 | 72.1 | ~1200 | 1M+ |
| StripedHyena 70B | 门控卷积 + Hyena | 79.8 | 78.4 | ~400 | 1M+ |

数据要点：虽然 StripedHyena 在 MMLU 等标准基准上落后于最大型 Transformer，但在专为测试长上下文理解而设计的 Long-Range Arena 任务套件上显著领先。更重要的是，其吞吐量是同等规模 Transformer 的 2-3 倍，且上下文限制实际上不受限。对于上下文长度是主要约束的应用，StripedHyena 已具备优势。

GitHub 上的开源仓库（togethercomputer/stripedhyena）提供了完整的训练与推理代码，以及 7B 和 70B 参数模型的预训练权重。该仓库持续增长，开发者正积极贡献 GPU 内存优化与自定义内核实现。

关键参与者与案例研究

StripedHyena 的开发直接源自 Together Computer 的研究团队，由 Tri Dao（FlashAttention 共同发明人）和 Christopher Ré 等知名人物领导。他们先前在 Hyena 层级上的工作奠定了理论基础。Together Computer 的策略很明确：他们不仅在构建更好的模型，更在构建一个能在普通硬件上运行的高效开源架构生态系统。

这使他们与其他试图推翻 Transformer 的努力形成直接竞争：

| 组织 | 架构 | 关键创新 | 状态 | 应用焦点 |
|---|---|---|---|---|
| Together Computer | StripedHyena | 门控卷积 + Hyena | 开源，已预训练 | 长上下文、代码、多模态 |
| MosaicML（Databricks） | MPT | ALiBi 位置编码 | 开源，已弃用 | 通用、效率 |
| Google DeepMind | RWKV | 线性注意力 + RNN | 开源，活跃 | 高效推理、边缘设备 |
| Apple | Recurrent Memory Transformer | 带外部存储的注意力 | 研究论文 | 长上下文、移动端 |
| Contextual AI | HyenaDNA | 用于基因组序列的 Hyena | 开源，专用 | 生物信息学 |

数据要点：StripedHyena 是迄今为止最全面的开源尝试，旨在大规模替代注意力机制。虽然 RWKV 和 MPT 提供了渐进式改进，但 StripedHyena 首次证明，非注意力架构能在 70B 参数规模上同时与 Transformer 在质量和效率上竞争。

一个值得注意的案例

常见问题

GitHub 热点“StripedHyena: Can Gated Convolutions Dethrone the Transformer?”主要讲了什么？

The AI community has long operated under the assumption that the Transformer's self-attention mechanism is the only viable path to state-of-the-art performance. Together Computer's…

这个 GitHub 项目在“How does StripedHyena compare to Mamba for long context tasks?”上为什么会引发关注？

StripedHyena's core innovation lies in replacing the Transformer's self-attention with a hybrid of gated convolutions and the Hyena operator. To understand why this matters, we must first revisit the Transformer's fundam…

从“Can StripedHyena run on consumer GPUs like RTX 4090?”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 433，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

StripedHyena：门控卷积能否终结Transformer统治？

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题