技术深度解析
StripedHyena 的核心创新在于用门控卷积与 Hyena 算子的混合体替代 Transformer 的自注意力。要理解其重要性,需先回顾 Transformer 的根本瓶颈:自注意力随序列长度呈二次方缩放。对于 N 个 token 的序列,注意力矩阵为 N×N,导致 O(N²) 的计算与内存消耗。这使得处理超过 10 万 token 的序列对大多数组织而言成本高昂。
StripedHyena 完全绕开了这一问题。其架构基于两大关键组件:
1. 门控卷积:这并非标准的图像处理卷积。它们是带有学习门控机制的一维深度可分离卷积,允许模型在不同位置选择性地放大或抑制特征。门控引入了数据依赖元素,使卷积能够聚焦于相关上下文,而非平等对待所有位置。这对代码生成等任务至关重要——模型需关注数百 token 之外的特定变量定义。
2. Hyena 算子:这才是真正的明星。Hyena 算子由斯坦福大学与 Together Computer 的研究人员在先前论文中提出,是一种实现亚二次复杂度的数据控制循环。其工作原理是将类似注意力的计算分解为一系列隐式卷积,其中滤波器权重本身由一个小型神经网络根据输入生成。这使得算子无需显式计算完整注意力矩阵即可学习长程依赖。实际中,根据配置不同,复杂度可降至 O(N log N) 甚至 O(N)。
名称中的“Striped”(条纹状)指代一种多尺度处理策略:输入被分割成多个“条纹”或频带,每个频带由一组具有不同感受野的 Hyena 算子处理。这类似于人耳在不同频率范围内处理声音的方式。通过并行化这些条纹,StripedHyena 能同时捕捉细粒度局部模式与广泛的全局结构。
基准性能
| 模型 | 架构 | MMLU(5-shot) | Long-Range Arena(平均) | 吞吐量(token/秒) | 最大上下文长度 |
|---|---|---|---|---|---|
| GPT-4(近似) | Transformer(MoE) | 86.4 | 不适用 | ~100 | 128k |
| Llama 3 70B | Transformer | 82.0 | 65.2 | ~500 | 128k |
| StripedHyena 7B | 门控卷积 + Hyena | 68.5 | 72.1 | ~1200 | 1M+ |
| StripedHyena 70B | 门控卷积 + Hyena | 79.8 | 78.4 | ~400 | 1M+ |
数据要点:虽然 StripedHyena 在 MMLU 等标准基准上落后于最大型 Transformer,但在专为测试长上下文理解而设计的 Long-Range Arena 任务套件上显著领先。更重要的是,其吞吐量是同等规模 Transformer 的 2-3 倍,且上下文限制实际上不受限。对于上下文长度是主要约束的应用,StripedHyena 已具备优势。
GitHub 上的开源仓库(togethercomputer/stripedhyena)提供了完整的训练与推理代码,以及 7B 和 70B 参数模型的预训练权重。该仓库持续增长,开发者正积极贡献 GPU 内存优化与自定义内核实现。
关键参与者与案例研究
StripedHyena 的开发直接源自 Together Computer 的研究团队,由 Tri Dao(FlashAttention 共同发明人)和 Christopher Ré 等知名人物领导。他们先前在 Hyena 层级上的工作奠定了理论基础。Together Computer 的策略很明确:他们不仅在构建更好的模型,更在构建一个能在普通硬件上运行的高效开源架构生态系统。
这使他们与其他试图推翻 Transformer 的努力形成直接竞争:
| 组织 | 架构 | 关键创新 | 状态 | 应用焦点 |
|---|---|---|---|---|
| Together Computer | StripedHyena | 门控卷积 + Hyena | 开源,已预训练 | 长上下文、代码、多模态 |
| MosaicML(Databricks) | MPT | ALiBi 位置编码 | 开源,已弃用 | 通用、效率 |
| Google DeepMind | RWKV | 线性注意力 + RNN | 开源,活跃 | 高效推理、边缘设备 |
| Apple | Recurrent Memory Transformer | 带外部存储的注意力 | 研究论文 | 长上下文、移动端 |
| Contextual AI | HyenaDNA | 用于基因组序列的 Hyena | 开源,专用 | 生物信息学 |
数据要点:StripedHyena 是迄今为止最全面的开源尝试,旨在大规模替代注意力机制。虽然 RWKV 和 MPT 提供了渐进式改进,但 StripedHyena 首次证明,非注意力架构能在 70B 参数规模上同时与 Transformer 在质量和效率上竞争。
一个值得注意的案例