记忆稀疏注意力突破1亿令牌大关,AI上下文极限被重新定义

Hacker News March 2026
来源:Hacker Newslong-context AI归档:March 2026
一项名为记忆稀疏注意力的根本性架构突破,正在击碎现代AI最顽固的瓶颈:Transformer注意力机制的二次内存缩放。这项创新使模型能高效处理接近1亿令牌的上下文窗口,将AI从受限于内存的时代,推向以近乎无限的上下文为默认能力的新纪元。

争夺更长上下文窗口已成为基础模型竞赛的新前沿,但进展始终受限于Transformer架构的核心缺陷:自注意力机制的内存需求随序列长度呈二次方增长。这道‘内存墙’将实际上下文长度限制在数十万令牌以内,即便采用激进的工程优化也难以逾越。记忆稀疏注意力代表的是一次范式转移,而非渐进式优化。它通过策略性地稀疏化注意力计算——专注于保留关键的长程依赖关系,同时舍弃冗余或信息量较少的连接——将内存开销降低了数个数量级。早期的实现与研究论文已证明了其可行性。

这一突破意味着,AI模型将不再需要为处理长文档、超长对话或多轮复杂推理任务而进行繁重的截断或压缩,从而在代码生成、长文本分析、持续学习等场景中释放出前所未有的潜力。更重要的是,它从根本上改变了AI研发的成本结构:训练和推理的瓶颈正从纯粹的硬件算力限制,转向算法本身的精巧设计。行业竞争维度因此被重塑,那些能率先将高效稀疏注意力技术产品化的团队,将在下一代AI应用生态中占据先机。

记忆稀疏注意力的出现,标志着AI模型设计哲学的一次深刻转变。从追求‘全连接’的完美回忆能力,转向接受‘选择性关注’的智能权衡,这更贴近人类认知的经济性原则。它不仅是工程上的胜利,更是对智能本质理解的深化。随着这项技术的成熟,我们有望看到模型能力出现非线性跃升,催生出真正理解宏大叙事、进行超长程逻辑推理的AI系统。

技术深度解析

Transformer的自注意力机制核心在于计算序列中每个令牌与其他所有令牌的兼容性得分,从而为长度为 `n` 的序列生成一个 `n x n` 大小的注意力矩阵。这种 `O(n²)` 的内存复杂度是主要瓶颈。记忆稀疏注意力通过一种多管齐下的算法方案来攻克此难题,该方案可以多种混合形式实现。

核心架构策略:
1. 分层注意力: 将序列分割成块或段。在局部块内进行密集的注意力计算,而在块与块之间,则使用学习到的或启发式的路由机制进行稀疏计算。Google的 BigBird 等项目通过随机、滑动窗口和全局注意力模式开创了此法。MSA 通过使路由机制动态化且具备内容感知能力,进一步推进了该技术。
2. 动态稀疏模式: 模型不再使用固定模式,而是学习为每个查询从整个上下文中关注少量固定数量(`k`)的令牌,使复杂度降至 `O(n * k)`。这类似于注意力机制中的混合专家模型Routing TransformerReformer(使用局部敏感哈希)是早期范例。现代 MSA 实现采用更复杂、可端到端训练的可微分路由器。
3. 内存压缩与状态保持: 诸如 Compressive TransformersMemorizing Transformers 等技术维护着一个外部、压缩的过去激活值记忆库,模型可以稀疏地对其进行关注。MSA 通过将海量上下文视为密集‘工作记忆’与稀疏访问‘长期记忆’库的组合,整合了这项技术。
4. 核化与线性注意力:Linear TransformersPerformer 的 FAVOR+ 算法这类方法,重新表述了注意力计算以避免显式生成 `n x n` 矩阵,从而实现 `O(n)` 复杂度。MSA 常将这些方法作为特定注意力层的子组件纳入。

在GitHub上由 lucidrains 维护的 xTransformers 代码库,是展示这些原理的一个领先开源实现。它模块化地实现了数十种高效注意力机制(分块、线性、局部、Sinkhorn等),允许研究者组合自定义的稀疏注意力架构。其灵活性使其成为MSA概念的试验床,已获得超过7,000颗星标。

来自 Together AIMosaicML(现属Databricks)等实验室的最新基准测试显示了切实的影响。在一项使用8个A100节点的对照测试中,当上下文从32k令牌扩展到100万令牌时,采用混合MSA架构的模型保持了超过基线密集Transformer 50%的训练吞吐量,而密集模型的吞吐量则暴跌至近乎为零。

| 注意力类型 | 最大上下文(令牌) | 内存复杂度 | 相对训练速度(vs 密集型 32k) | 关键权衡 |
|---|---|---|---|---|
| 密集(标准) | ~50万(需极端优化) | O(n²) | 1.0(基线) | 完美回忆,代价高昂 |
| 滑动窗口(局部) | 极高 | O(n*w),w为窗口大小 | ~0.8(100万令牌时) | 丢失长程依赖 |
| 基于LSH(Reformer) | 高 | O(n log n) | ~0.6(100万令牌时) | 哈希开销,近似计算 |
| 线性注意力 | 理论上无限 | O(n) | ~0.7(100万令牌时) | 可能难以实现尖锐聚焦 |
| 记忆稀疏注意力 | 1000万 - 1亿+ | O(n log n) 至 O(n*k) | ~0.5 - 0.7(1000万令牌时) | 路由器学习成本,动态模式 |

数据启示: 上表揭示了MSA的独特地位:它提供了一个有利的折衷方案,在短上下文下仅以适度(30-50%)的训练速度损失为代价,实现了近乎无限的上下文长度,同时在有效上下文长度上远超其他稀疏方法。权衡的焦点已从硬件极限转向算法复杂度。

关键参与者与案例研究

MSA的发展是一项分布式努力,不同组织侧重于不同的产品化路径。

研究先驱:
* Google Research: 基础性工作源于此,包括开创性的 BigBirdPerformer 论文。Łukasz KaiserAurko Roy 等研究人员贡献卓著。Google的方法通常是理论先行,后期再整合到模型中,例如 PaLM 就使用了某种形式的结构化稀疏注意力来处理长上下文。
* OpenAI: 尽管对具体细节保密,但OpenAI的 GPT-4 Turbo 拥有128k上下文,以及关于‘无限上下文’研究项目的传闻,都表明其在高效注意力方面投入巨大。他们的重点很可能在于为终端用户提供无缝的稀疏注意力体验,隐藏其复杂性。
* Meta AI (FAIR): 秉承强大的开源理念,Meta的 LLaMA 模型最初使用标准注意力,但后续工作如 Efficient Streaming Language Models with Attention Sinks 论文旨在解决无限生成问题。他们的 Multi-Head Latent Attention 研究也是直接贡献者。

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

相关专题

long-context AI24 篇相关文章

时间归档

March 20262347 篇已发布文章

延伸阅读

20万令牌幻影:长上下文AI模型为何会遗忘初始指令长上下文AI模型正面临一个隐秘缺陷。我们的调查发现,当对话持续进行时,拥有20万以上令牌窗口的模型会系统性地遗忘或扭曲初始指令。这种‘指令衰减’现象,正威胁着扩展上下文处理在复杂推理任务中的核心价值。旧手机变身AI集群:分布式大脑挑战GPU霸权一项开创性实验证明,数百台废弃智能手机通过精密负载均衡架构连接,能够以接近入门级GPU服务器的推理速度集体运行大型语言模型。这一突破将电子垃圾转化为低成本、可行的AI算力资源,直接挑战行业对高端硬件的依赖。元提示工程:让AI智能体真正可靠的秘密武器AINews独家揭秘一项突破性技术——元提示工程(Meta-Prompting),它通过在AI智能体指令中嵌入自我监控层,实现推理路径的实时审计与纠错。这一创新彻底解决了长期困扰业界的任务漂移与上下文遗忘问题,将智能体从被动执行者转变为主动Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 正式发布 Cloud Storage Rapid,一款专为 AI 和分析工作负载打造的“涡轮增压”对象存储服务。通过大幅降低延迟、提升吞吐量,它直击长期困扰大规模模型训练与实时推理的 I/O 瓶颈,让存储从被动仓库

常见问题

这次模型发布“Memory-Sparse Attention Breaks the 100M Token Barrier, Redefining AI Context Limits”的核心内容是什么?

The race for longer context windows has become the new frontier in foundation model competition, but progress has been fundamentally constrained by the Transformer architecture's c…

从“how does memory sparse attention reduce transformer memory”看,这个模型发布为什么重要?

At its heart, the Transformer's self-attention mechanism computes a compatibility score between every token in a sequence and every other token, resulting in an attention matrix of size n x n for a sequence of length n.…

围绕“open source implementation memory sparse attention GitHub”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。