StripedHyena:门控卷积能否终结Transformer统治?

GitHub June 2026
⭐ 433
来源:GitHublong context AI归档:June 2026
Together Computer 发布了 StripedHyena,一种摒弃传统自注意力机制、采用门控卷积与 Hyena 算子的开源架构。这一创新大幅降低了计算成本,并能处理远超 Transformer 能力范围的长序列,有望改写长上下文 AI 的规则。

AI 社区长期以来默认 Transformer 的自注意力机制是实现顶尖性能的唯一可行路径。Together Computer 的 StripedHyena 直接挑战了这一正统观念。通过用门控卷积与 Hyena 算子的组合替代二次复杂度的注意力机制,StripedHyena 实现了亚二次缩放,使模型能以极低的内存和计算预算处理超过 100 万 token 的序列。其架构名称源于“条纹状”设计——并行处理输入的不同频带——以及 Hyena 算子,一种数据控制的循环机制,能学习聚焦于相关上下文。早期基准测试显示,StripedHyena 在长上下文任务上已匹配甚至超越 Transformer 基线,标志着非注意力架构首次在 70B 参数规模上兼具质量与效率。

技术深度解析

StripedHyena 的核心创新在于用门控卷积与 Hyena 算子的混合体替代 Transformer 的自注意力。要理解其重要性,需先回顾 Transformer 的根本瓶颈:自注意力随序列长度呈二次方缩放。对于 N 个 token 的序列,注意力矩阵为 N×N,导致 O(N²) 的计算与内存消耗。这使得处理超过 10 万 token 的序列对大多数组织而言成本高昂。

StripedHyena 完全绕开了这一问题。其架构基于两大关键组件:

1. 门控卷积:这并非标准的图像处理卷积。它们是带有学习门控机制的一维深度可分离卷积,允许模型在不同位置选择性地放大或抑制特征。门控引入了数据依赖元素,使卷积能够聚焦于相关上下文,而非平等对待所有位置。这对代码生成等任务至关重要——模型需关注数百 token 之外的特定变量定义。

2. Hyena 算子:这才是真正的明星。Hyena 算子由斯坦福大学与 Together Computer 的研究人员在先前论文中提出,是一种实现亚二次复杂度的数据控制循环。其工作原理是将类似注意力的计算分解为一系列隐式卷积,其中滤波器权重本身由一个小型神经网络根据输入生成。这使得算子无需显式计算完整注意力矩阵即可学习长程依赖。实际中,根据配置不同,复杂度可降至 O(N log N) 甚至 O(N)。

名称中的“Striped”(条纹状)指代一种多尺度处理策略:输入被分割成多个“条纹”或频带,每个频带由一组具有不同感受野的 Hyena 算子处理。这类似于人耳在不同频率范围内处理声音的方式。通过并行化这些条纹,StripedHyena 能同时捕捉细粒度局部模式与广泛的全局结构。

基准性能

| 模型 | 架构 | MMLU(5-shot) | Long-Range Arena(平均) | 吞吐量(token/秒) | 最大上下文长度 |
|---|---|---|---|---|---|
| GPT-4(近似) | Transformer(MoE) | 86.4 | 不适用 | ~100 | 128k |
| Llama 3 70B | Transformer | 82.0 | 65.2 | ~500 | 128k |
| StripedHyena 7B | 门控卷积 + Hyena | 68.5 | 72.1 | ~1200 | 1M+ |
| StripedHyena 70B | 门控卷积 + Hyena | 79.8 | 78.4 | ~400 | 1M+ |

数据要点:虽然 StripedHyena 在 MMLU 等标准基准上落后于最大型 Transformer,但在专为测试长上下文理解而设计的 Long-Range Arena 任务套件上显著领先。更重要的是,其吞吐量是同等规模 Transformer 的 2-3 倍,且上下文限制实际上不受限。对于上下文长度是主要约束的应用,StripedHyena 已具备优势。

GitHub 上的开源仓库(togethercomputer/stripedhyena)提供了完整的训练与推理代码,以及 7B 和 70B 参数模型的预训练权重。该仓库持续增长,开发者正积极贡献 GPU 内存优化与自定义内核实现。

关键参与者与案例研究

StripedHyena 的开发直接源自 Together Computer 的研究团队,由 Tri Dao(FlashAttention 共同发明人)和 Christopher Ré 等知名人物领导。他们先前在 Hyena 层级上的工作奠定了理论基础。Together Computer 的策略很明确:他们不仅在构建更好的模型,更在构建一个能在普通硬件上运行的高效开源架构生态系统。

这使他们与其他试图推翻 Transformer 的努力形成直接竞争:

| 组织 | 架构 | 关键创新 | 状态 | 应用焦点 |
|---|---|---|---|---|
| Together Computer | StripedHyena | 门控卷积 + Hyena | 开源,已预训练 | 长上下文、代码、多模态 |
| MosaicML(Databricks) | MPT | ALiBi 位置编码 | 开源,已弃用 | 通用、效率 |
| Google DeepMind | RWKV | 线性注意力 + RNN | 开源,活跃 | 高效推理、边缘设备 |
| Apple | Recurrent Memory Transformer | 带外部存储的注意力 | 研究论文 | 长上下文、移动端 |
| Contextual AI | HyenaDNA | 用于基因组序列的 Hyena | 开源,专用 | 生物信息学 |

数据要点:StripedHyena 是迄今为止最全面的开源尝试,旨在大规模替代注意力机制。虽然 RWKV 和 MPT 提供了渐进式改进,但 StripedHyena 首次证明,非注意力架构能在 70B 参数规模上同时与 Transformer 在质量和效率上竞争。

一个值得注意的案例

更多来自 GitHub

OpenSnitch:Linux 上终于有了媲美 Little Snitch 的应用防火墙OpenSnitch,一款受 Little Snitch 启发的 GNU/Linux 应用防火墙,已悄然成为 Linux 桌面上最引人注目的开源安全工具之一。由 Gustavo Iñiguez Goya 开发,它提供了对出站网络连接的细粒度OpenSnitch:开源防火墙让Linux隐私掌控权回归用户之手OpenSnitch是一款GNU/Linux交互式应用防火墙,直接受macOS经典工具Little Snitch启发。它赋予用户对出站网络连接的细粒度、按进程控制能力,可根据进程名称、域名、IP、端口等条件拦截或放行流量。该项目在GitHuDraw.io Desktop:开源版Visio杀手,GitHub星数突破6.1万Draw.io Desktop,作为基于Web的draw.io绘图应用的Electron封装版,已成为开源生态中的一匹黑马。凭借超过6.1万颗GitHub星和每日765颗星的增长速度,该项目现已成为无需网络连接即可创建流程图、架构图和UML查看来源专题页GitHub 已收录 2890 篇文章

相关专题

long context AI26 篇相关文章

时间归档

June 20262118 篇已发布文章

延伸阅读

Together Computer 私有分支 OpenHands:一场争夺 AI 编程霸权的战略布局Together Computer 悄然创建了热门开源 AI 编程助手 OpenHands 的私有分支。这一举动标志着其对专有、基础设施优化的 AI 开发工具的战略押注,也引发了关于开源 AI 未来以及社区驱动创新与企业控制之间平衡的深刻思S4模型:数学突破挑战Transformer在长序列领域的统治地位结构化状态空间序列(S4)模型代表了长序列深度学习领域的范式转变。它将经典状态空间理论与现代深度学习相结合,在数万步长的序列上实现了线性时间复杂度和稳定梯度,正挑战Transformer在音频、基因组学和时间序列预测等领域的统治地位。OpenSnitch:Linux 上终于有了媲美 Little Snitch 的应用防火墙OpenSnitch 为 Linux 带来了 Little Snitch 式的每应用防火墙控制,利用 eBPF 和 nfqueue 监控出站连接。本文深入剖析其架构、局限,并探讨它能否成为 Linux 桌面隐私保护的标配工具。OpenSnitch:开源防火墙让Linux隐私掌控权回归用户之手开源Linux应用防火墙OpenSnitch在GitHub上星标数突破13,800,日增382颗星。本文深入解析其基于eBPF的架构设计、实际部署场景,以及为何这款工具对注重隐私的桌面生态至关重要。

常见问题

GitHub 热点“StripedHyena: Can Gated Convolutions Dethrone the Transformer?”主要讲了什么?

The AI community has long operated under the assumption that the Transformer's self-attention mechanism is the only viable path to state-of-the-art performance. Together Computer's…

这个 GitHub 项目在“How does StripedHyena compare to Mamba for long context tasks?”上为什么会引发关注?

StripedHyena's core innovation lies in replacing the Transformer's self-attention with a hybrid of gated convolutions and the Hyena operator. To understand why this matters, we must first revisit the Transformer's fundam…

从“Can StripedHyena run on consumer GPUs like RTX 4090?”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 433,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。