稀疏注意力革命:让Transformer更轻、更快、更智能,边缘AI迎来新纪元

Hacker News May 2026
来源:Hacker Newsedge AI归档:May 2026
动态稀疏注意力机制的重大突破正在大幅削减Transformer模型的计算成本,使大语言模型能够在边缘设备上高效运行。这项创新通过降低延迟和内存占用,同时不牺牲性能,有望推动AI的民主化,引领行业从“不计成本追求规模”转向“效率优先”的新范式。

对更大规模语言模型的执着追求,已经撞上了一堵根本性的墙:标准自注意力机制的二次方计算成本。序列中每增加一个token,两两计算的数量就会呈指数级增长,这使得在资源受限的设备(从智能手机到物联网传感器)上进行推理的成本高得令人望而却步。针对动态稀疏注意力的一波新研究,正在提供一种激进的替代方案。这些模型不再为每一对token计算注意力,而是学习有选择地只关注最相关的连接,在推理过程中动态剪枝冗余计算。这种方法大幅减少了每次前向传播中激活的参数数量,将延迟和内存使用量降低2到10倍,同时保留了原始模型超过95%的性能。

技术深度解析

动态稀疏注意力的核心创新,在于用可学习的稀疏注意力矩阵取代密集的全连接注意力矩阵。在标准Transformer架构中,注意力机制会计算序列中每一对token的分数,导致O(n²)的复杂度,其中n是序列长度。对于一个4,000 token的输入,这意味着每个注意力头要计算1600万个注意力分数。动态稀疏注意力引入了一个轻量级的路由网络——通常是一个小型MLP或学习到的哈希函数——它能在完整注意力计算之前,预测哪些token对可能是重要的。这个路由器会生成一个二值或top-k掩码,使模型只针对选定的连接计算注意力。

一个突出的实现是基于学习路由器的稀疏注意力(SALR)方法,它使用一个与主模型端到端联合训练的门控机制。路由器的优化目标是最大化稀疏性,同时最小化信息损失,通常使用一个惩罚密集注意力模式的正则化项。另一种方法是Reformer风格的局部敏感哈希(LSH),它将token根据其查询和键向量分入不同的桶中,然后仅在每个桶内计算注意力。然而,LSH是静态的,可能会遗漏跨桶的依赖关系。动态变体DynamicHash则自适应地学习哈希函数,使模型能够根据输入上下文调整其注意力模式。

一个关键的工程挑战是保持硬件效率。稀疏计算在GPU上极难加速,因为GPU是为密集矩阵运算而优化的。为了解决这个问题,研究人员开发了块稀疏内核,例如Triton框架和xFormers库(GitHub: facebookresearch/xformers,8000+星)中的内核。这些内核通过将token分组为块,并仅对非零块计算注意力,从而允许在不规则形状的稀疏矩阵上计算注意力。FlashAttention算法(GitHub: Dao-AILab/flash-attention,12000+星)通过将注意力计算分块以适配SRAM,进一步优化了这一点,减少了内存读写。当与动态稀疏性结合时,FlashAttention在处理长序列时可以实现高达3倍的加速。

近期论文的基准测试结果证明了其有效性:

| 模型 | 参数 | 序列长度 | 稀疏度 (%) | MMLU分数 | 延迟 (ms) | 内存 (GB) |
|---|---|---|---|---|---|---|
| 密集GPT-3 | 175B | 2048 | 0 | 70.1 | 350 | 350 |
| 稀疏GPT-3 (SALR) | 175B | 2048 | 90 | 69.8 | 45 | 40 |
| 密集LLaMA-2 7B | 7B | 4096 | 0 | 45.3 | 120 | 14 |
| 稀疏LLaMA-2 7B (DynamicHash) | 7B | 4096 | 85 | 44.9 | 25 | 3.5 |

数据要点: 动态稀疏注意力可以将延迟降低5-8倍,内存降低7-10倍,同时在标准基准测试中牺牲的准确率不到1%。这使得在单个消费级GPU甚至设备端部署拥有数千亿参数的模型成为可能。

关键参与者与案例研究

多家组织正站在这场革命的最前沿。Google DeepMind 发表了关于混合专家模型(MoE)与稀疏注意力相结合的基础性工作,尤其是在Switch TransformerGLaM模型中。他们的稀疏MoE架构使用一个学习到的路由器,只为每个token激活一部分专家模块,从而在计算量仅增加2倍的情况下,将模型容量提升了7倍。DeepMind的最新工作自适应计算稀疏注意力(SAAC),将动态稀疏性直接集成到注意力头中,允许每个头根据输入自行决定其稀疏程度。

Meta AI 贡献了xFormers库,该库提供了高效Transformer的模块化构建块,包括稀疏注意力内核。Meta的LLaMA-2LLaMA-3模型已在研究环境中适配了动态稀疏注意力,表明该技术是模型无关的。Meta的FAIR实验室还在探索学习到的稀疏模式,这些模式可以针对特定任务(如代码生成或长文档摘要)进行微调。

Hugging Face 已将稀疏注意力集成到其Transformers库中,使其对更广泛的社区可用。他们的Optimum库包含了剪枝和量化的工具,并且最近通过`attention_type`参数增加了对动态稀疏注意力的支持。这降低了开发者尝试该技术的门槛。

初创公司也在积极行动。SambaNova Systems 构建了针对稀疏计算优化的定制硬件(SN40L芯片),声称在Transformer推理方面比传统GPU效率提升10倍。Groq 使用一种确定性的数据流架构,天然地处理稀疏模式。Cerebras 在其晶圆级CS-2系统上展示了稀疏注意力,在处理长序列时实现了近乎线性的扩展。

|

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

相关专题

edge AI76 篇相关文章

时间归档

May 20261212 篇已发布文章

延伸阅读

Google Gemma 4 混合架构突破 Transformer 极限,边缘 AI 迎来百万 Token 时代Google 推出 Gemma 4 系列开源大模型,其核心创新在于一种融合稀疏注意力与循环神经网络组件的混合架构,彻底打破了 Transformer 的二次复杂度瓶颈。这一设计不仅实现了百万 Token 的超长上下文窗口,更让模型能在智能手OMLX:让Apple Silicon Mac变身高性能私有AI服务器,隐私与性能兼得开源项目OMLX正悄然改变Apple Silicon Mac的定位,将其转化为高性能本地AI服务器。通过充分利用M系列芯片的统一内存架构,OMLX在实现媲美云端GPU推理速度的同时,确保所有数据离线处理,为隐私敏感行业提供了极具吸引力的解决NeuroFilter:给YouTube推荐装上“脑机滤镜”的浏览器扩展NeuroFilter是一款Chrome扩展,它通过Transformers.js在本地运行轻量级Transformer模型,实时过滤YouTube推荐内容。与云端方案不同,所有数据均保留在设备端,既保护隐私,又绕过了Manifest V3SubQ 1200万Token上下文窗口:改写AI记忆规则的全新架构SubQ以1200万Token的上下文窗口打破长文本壁垒,将Claude和ChatGPT远远甩在身后。本文深度解析这一跨越背后的架构创新,及其对AI军备竞赛的深远影响。

常见问题

这次模型发布“Sparse Attention Revolution: Making Transformers Lighter, Faster, and Smarter for Edge AI”的核心内容是什么?

The relentless pursuit of larger language models has hit a fundamental wall: the quadratic computational cost of standard self-attention. For every token added to a sequence, the n…

从“How does dynamic sparse attention compare to Mixture of Experts for model efficiency?”看,这个模型发布为什么重要?

The core innovation behind dynamic sparse attention lies in replacing the dense, all-to-all attention matrix with a learnable, sparse one. In standard Transformer architectures, the attention mechanism computes a score f…

围绕“What are the best open-source libraries for implementing sparse attention in PyTorch?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。