记忆稀疏注意力:重新定义1亿令牌上下文窗口的可扩展框架

GitHub April 2026
⭐ 3122📈 +942
来源:GitHub归档:April 2026
Evermind AI提出的全新研究框架“记忆稀疏注意力”,通过将稀疏注意力与可训练的潜在记忆相结合,为大型语言模型最顽固的瓶颈——上下文长度——提供了革命性解决方案。该框架理论上能处理长达1亿令牌的序列,有望从根本上重塑长文本处理的范式。

开源项目 `evermind-ai/msa`(Memory Sparse Attention)在AI研究社区迅速走红,短时间内便收获了超过3000个GitHub星标。其核心主张是一个可扩展、端到端可训练的框架,旨在处理前所未有的、长达1亿令牌的上下文窗口。这直接针对了标准Transformer模型的一个根本性限制:其注意力机制的二次方计算复杂度,使得处理如此长的上下文在计算上几乎不可行。

MSA的创新之处并非简单应用现有的稀疏注意力模式,而是将其与一套可学习的潜在记忆单元系统相结合。这些单元充当了过去上下文的动态压缩表征,模型可以有选择地访问和更新它们。该框架的设计目标是成为Transformer模块中标准注意力机制的“即插即用”替代品,其架构建立在两个协同作用的支柱之上:一个稀疏注意力算子和一个潜在记忆库。稀疏注意力组件降低了完整注意力O(N²)的复杂度,每个令牌仅查询由学习或启发式模式确定的子集,可能结合了局部窗口注意力、跨步注意力(用于长程依赖)和随机注意力(用于全局连接)。而真正的创新在于潜在记忆框架:系统维护一个固定大小的、包含`K`个记忆向量(例如1024个维度为`d_model`的向量)的库。这些并非静态嵌入,而是在前向传播过程中动态更新。该过程包含三个关键步骤:记忆检索、记忆更新和记忆传播。这种设计使得模型能够在一个恒定大小的记忆库中维护对1亿令牌的“摘要”,同时稀疏注意力则处理与最近、最相关令牌的细粒度交互。整个系统是可微分的,意味着稀疏模式和记忆更新规则可以在训练过程中直接从数据中学习。

尽管该框架尚处早期,其理论性能已可与现有的长上下文技术进行对比。标准Transformer受限于二次方计算与内存开销;位置插值法(如Code Llama)存在质量下降问题且非真正可扩展;流式/分块处理会损失全局连贯性;FlashAttention虽能优化但根本上仍是O(N²);环形注意力/分块并行则依赖复杂的分布式基础设施。MSA的独特定位在于,它试图通过潜在记忆,使这种近似变得可学习且自适应。项目代码库提供了核心PyTorch模块,其星标的快速增长表明了研究者的浓厚兴趣,但要与Hugging Face Transformers或vLLM等主流框架进行生产就绪的集成,可能仍需时日。

技术深度解析

记忆稀疏注意力被设计为Transformer模块中标准注意力机制的即插即用替代品。其架构建立在两个协同作用的支柱之上:一个稀疏注意力算子和一个潜在记忆库

稀疏注意力组件降低了完整注意力O(N²)的复杂度。每个令牌并非关注所有先前的令牌,而是查询一个由学习或启发式模式确定的子集——可能结合了局部窗口注意力(用于邻近依赖)、跨步注意力(用于长程依赖)和随机注意力(用于全局连接)。MSA的实现很可能建立在Longformer的滑动窗口注意力或BigBird的块稀疏模式等先前工作之上,但更侧重于端到端的可微性以及与记忆的集成。

真正的新颖之处在于潜在记忆框架。系统维护一个固定大小的、包含`K`个记忆向量(例如1024个维度为`d_model`的向量)的库。这些不是静态嵌入,而是在前向传播过程中动态更新的。该过程包含三个关键步骤:
1. 记忆检索: 对于给定的查询(令牌表征),模型在即时的局部令牌上下文*以及*整个记忆库上执行稀疏注意力操作。这使得令牌能够访问序列中更早时期的高度压缩信息。
2. 记忆更新: 在处理完一段输入后,系统使用一个学习的门控机制(灵感来源于GRU或LSTM)来决定应将近期上下文中的哪些新信息写入记忆库,可能会覆盖较旧、相关性较低的记忆。
3. 记忆传播: 记忆库在整个序列处理过程中持续传递,形成一个持久且不断演化的状态,总结了迄今为止处理的全部历史。

这种设计使得模型能够在一个恒定大小的记忆库中维护对1亿令牌的“摘要”,同时稀疏注意力则处理与最近、最相关令牌的细粒度交互。整个系统是可微分的,意味着稀疏模式和记忆更新规则可以在训练过程中直接从数据中学习。

对此类系统进行基准测试在早期阶段具有挑战性,但我们可以将其理论性能与已确立的长上下文技术进行对比。

| 方法 | 核心方法 | 最大上下文(理论) | 关键限制 |
|---|---|---|---|
| 标准Transformer | 完整注意力 | ~128K(需极端优化) | 二次方计算/内存开销 O(N²) |
| 位置插值(如Code Llama) | 外推RoPE | ~100K-1M | 质量下降,非真正可扩展 |
| 流式/分块处理 | 固定块处理 | 任意(但有损) | 无跨块注意力,丧失全局连贯性 |
| FlashAttention | IO感知的精确注意力 | ~1M(受硬件限制) | 降低成本,但根本上仍是O(N²) |
| 环形注意力 / 分块并行 | 分布式序列处理 | 1M+(受系统限制) | 需要大量并行化,基础设施复杂 |
| 记忆稀疏注意力(MSA) | 稀疏注意力 + 潜在记忆 | 1亿+(宣称) | 大规模应用未经验证,记忆保真度损失 |

数据要点: 上表揭示了一个清晰的权衡:保留完整注意力的方法(FlashAttention、环形注意力)会触及硬件或系统极限,而近似方法(插值、流式处理、MSA)则为规模牺牲了部分理论保真度。MSA的独特之处在于,它试图通过潜在记忆使这种近似变得可学习且自适应

GitHub仓库 `evermind-ai/msa` 提供了核心PyTorch模块。早期的代码审查显示了替换注意力层的集成点以及可配置的记忆大小。其星标的快速增长表明了研究者的浓厚兴趣,但要与Hugging Face Transformers或vLLM等主流框架进行生产就绪的集成,可能仍需时日。

关键参与者与案例研究

MSA的发展处于多个活跃研究方向的交汇点。Evermind AI作为该项目的幕后组织,似乎专注于基础AI研究,尤其强调效率与可扩展性。虽然并非商业巨头,但其工作直接挑战了大型实体的相关计划。

Google DeepMind 一直是长上下文研究的先驱,其Gemini 1.5 Pro的100万上下文窗口模型利用了混合专家(MoE)架构和高效注意力。他们的方法强调对已知组件进行大规模工程和扩展。Anthropic 的Claude 3拥有20万上下文窗口,采用了精心的训练和可能专有的注意力变体。Meta 对Llama的研究以及Yann LeCun近期的JEPA(联合嵌入预测架构)探索了能够固有地处理长期依赖关系的替代世界模型架构,这是一条与自回归Transformer不同的哲学路径。

MSA最直接的概念竞争对手可能来自其他将记忆机制与Transformers结合的研究脉络,例如Memorizing Transformers或使用外部向量数据库的方法。然而,MSA的差异化在于其端到端的可训练性与稀疏注意力的深度集成,旨在实现单一、统一且可扩展的架构,而非依赖事后检索或固定的记忆机制。

更多来自 GitHub

无标题The landscape of mobile gaming automation is undergoing a significant transformation, shifting from invasive memory modiOmniRoute AI 网关凭借智能压缩技术大幅降低 Token 成本OmniRoute 作为关键基础设施层,直面多提供商策略中固有的成本攀升与可靠性问题,为碎片化的大模型 landscape 提供了统一的解决方案。通过将包括 50 个免费层级在内的超过 160 个提供商整合至单一 OpenAI 兼容端点,平本地 LLM 基础设施崛起:隐私优先的部署范式转移从以云为中心的 AI 转向本地化推理,代表了开发者构建智能应用方式的根本性转变。`awesome-local-llm` 仓库成为这一运动的关键枢纽,聚合了在消费级硬件上部署大语言模型所需的碎片化工具。这个集合不仅仅是一个目录;它反映了一个成查看来源专题页GitHub 已收录 2301 篇文章

时间归档

April 20263042 篇已发布文章

延伸阅读

LongLoRA以高效上下文窗口扩展重塑LLM经济学一项名为LongLoRA的创新微调技术正在挑战扩展大语言模型上下文窗口的高成本范式。通过引入可偏移稀疏注意力机制并仅微调极小部分参数,研究人员成功将模型上下文从2K扩展到超过100K token,且性能近乎无损。这一突破显著降低了长上下文AVision Transformer:谷歌研究如何终结CNN在计算机视觉领域长达十年的统治谷歌研究院推出的Vision Transformer(ViT)彻底打破了卷积神经网络在计算机视觉领域长达十年的主导地位。通过将图像视为一系列图像块并应用纯Transformer编码器,ViT在图像分类任务上达到了业界顶尖水平——但前提是必须LongLoRA:一个微小的LoRA改动,如何让现有大模型轻松驾驭32K上下文窗口一种名为LongLoRA的新型微调方法,仅需全参数微调所需参数的一小部分,就能将大语言模型的上下文窗口从2K扩展到32K token。它通过结合稀疏注意力与可学习的嵌入偏移,以极低的成本实现了接近全注意力的质量。Meta DiT:Transformer架构如何重塑扩散模型的未来Meta开源的扩散Transformer(DiT)项目,标志着生成式AI迎来了一次根本性的架构变革。它用纯Transformer取代了扩散模型传统的卷积U-Net主干,展现出前所未有的可扩展性——模型性能随参数和计算量增加而可预测地提升。此

常见问题

GitHub 热点“Memory Sparse Attention: The Scalable Framework Redefining 100M-Token Context Windows”主要讲了什么?

The open-source project evermind-ai/msa, titled Memory Sparse Attention, has rapidly gained traction within the AI research community, amassing over 3,000 GitHub stars in a short p…

这个 GitHub 项目在“How to implement MSA with Hugging Face transformers”上为什么会引发关注?

Memory Sparse Attention (MSA) is engineered as a drop-in replacement for the standard attention mechanism in Transformer blocks. Its architecture is built on two synergistic pillars: a sparse attention operator and a lat…

从“MSA vs FlashAttention 3 benchmark performance”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 3122,近一日增长约为 942,这说明它在开源社区具有较强讨论度和扩散能力。