北大突破性注意力机制优化:无需重训,LLM推理速度提升四倍

April 2026
归档:April 2026
北京大学研究团队发布了一项针对大语言模型的变革性优化技术。该技术通过对注意力机制进行创新性改造,可在不牺牲精度的前提下,将模型推理速度提升高达四倍,且无需昂贵的模型重训练。这一突破有望彻底改变大规模AI模型的部署方式。

北京大学人工智能研究院的一项突破性研究,直指现代大语言模型的计算核心——注意力机制。该团队设计了一种即插即用的改进方案,可应用于DeepSeek、Llama及GPT架构变体等现有模型。据报道,该方案在保持模型原始精度的同时,能将推理速度提升高达400%。

其重要性在于方法论上的革新。传统的速度优化通常涉及权衡取舍:量化会降低精度,剪枝会移除参数,而蒸馏则需要使用更小的模型进行大量重训练。相比之下,这种新方法如同对注意力计算本身进行了一次“外科手术”。注意力计算正是Transformer模型中最主要的计算成本来源。这项研究提供了一条无需牺牲模型能力即可显著提升效率的新路径。

该技术被命名为“稀疏-聚合注意力”(Sparse-Aggregate Attention, SAA)。其核心在于双管齐下的策略:智能稀疏化与分层聚合。首先,它并非计算完整的注意力矩阵,而是通过一个轻量级的预测网络动态识别并仅计算高概率的注意力对。其次,对于剩余的计算,它引入了分层聚合步骤,即时聚类相似的值向量,并将注意力分数应用于聚类中心,从而大幅减少与V矩阵进行昂贵矩阵乘法的次数。

最关键的是,仅预测网络和聚类参数需要训练。这种“轻量级微调”涉及的参数量不到原模型的0.1%,在单GPU上数小时即可完成,与需要多GPU集群耗时数周的全模型重训练形成鲜明对比。修改后的注意力模块可以无缝替换任何预训练Transformer中的标准模块。

早期基准测试结果显示了卓越的性能:在Llama 3 8B、DeepSeek-V2 16B、Qwen 2.5 32B和Mistral 7B等多种模型和不同序列长度下,均实现了3.4至4倍的推理加速,且精度影响微乎其微。研究代码预计将在名为`Efficient-Attention-Toolkit`的GitHub仓库中发布。

技术深度解析

核心创新在于对注意力计算过程的重新架构。Transformer中标准的缩放点积注意力公式为Attention(Q, K, V) = softmax(QKᵀ/√d)V,其计算复杂度随序列长度呈二次方增长(O(n²)),这是长上下文推理的主要瓶颈。北京大学团队的方法——内部资料显示其名为稀疏-聚合注意力(SAA)——通过双管齐下的策略攻克此瓶颈:智能稀疏化与分层聚合。

首先,SAA并非计算完整的QKᵀ矩阵,而是采用一种动态路由机制,仅识别并计算高概率的注意力对子集。这不是随机或静态的稀疏化;它使用一个轻量级的、经过学习的预测网络,该网络作用于投影后的查询和键向量,以便在完整计算前预估注意力相关性。其次,对于剩余的计算,它引入了分层聚合步骤。相似的值向量被即时聚类,注意力分数被应用于聚类中心,从而极大地减少了与V矩阵进行昂贵矩阵乘法的次数。计算结果随后被分配回各个令牌。整个过程被设计为可微分的,并能无缝集成到现有的注意力模块中。

至关重要的是,预测网络和聚类参数是唯一需要训练的组件。这个“轻量级微调”阶段涉及的参数量不到原始模型的0.1%,在单GPU上数小时即可完成,这与全模型重训练需要多GPU集群耗时数周形成鲜明对比。修改后的注意力模块随后可以替换任何预训练Transformer中的标准模块,成为一个真正的即插即用模块。

团队分享的早期基准测试结果展示了令人信服的性能:

| 模型与配置 | 标准注意力 (tokens/秒) | SAA优化后 (tokens/秒) | 加速比 | 精度变化 (MMLU) |
|---|---|---|---|---|
| Llama 3 8B (序列长 4096) | 142 | 568 | 4.0倍 | +0.1% |
| DeepSeek-V2 16B (序列长 8192) | 89 | 320 | 3.6倍 | -0.2% |
| Qwen 2.5 32B (序列长 4096) | 78 | 273 | 3.5倍 | +0.05% |
| Mistral 7B (序列长 32768) | 24 | 82 | 3.4倍 | -0.3% |

数据要点: 上表显示,在不同模型架构和序列长度下,推理速度均实现了3.4-4倍的稳定提升,且精度影响可忽略不计,证明了该方法的普适性。在序列较长、二次方注意力复杂度影响最大的场景下,性能增益尤为显著。

研究代码预计将在暂定名为`Efficient-Attention-Toolkit`的GitHub仓库中发布。该仓库可能包含SAA的实现,以及FlashAttention、xFormers和StreamingLLM等其他先进高效注意力方法以供对比,方便开发者根据自身用例进行基准测试和集成最优方案。

关键参与者与案例研究

这项研究由北京大学人工智能学院周靖人教授实验室主导,在高性能计算和神经架构设计方面有专长的博士生做出了关键贡献。该团队在系统级AI优化方面有良好记录,曾为DeepSpeed推理引擎和BMTrain训练框架做出过贡献。

此项突破进入了一个竞争激烈的效率解决方案领域。各大科技公司拥有自己的专有技术栈:Meta的`xFormers`库以及对分组查询和多查询注意力的研究;Google的Pathways及各种稀疏注意力模式;NVIDIA主导的`FlashAttention`系列(主要优化GPU内存IO,但未在算法层面减少FLOPs)。像Together AIReplicate这样的初创公司正基于优化推理服务构建业务。北京大学的方法独特之处在于,它是一种即插即用的算法替代方案,声称无需针对特定硬件调优即可实现卓越的加速效果。

| 优化技术 | 速度增益 | 是否需要重训练 | 精度影响 | 主要用例 |
|---|---|---|---|---|
| 北京大学 SAA | 3-4倍 | 轻量级微调 | 可忽略 | 通用推理 |
| 量化 (INT8) | 1.5-2倍 | 需要校准数据集 | 小幅下降 | 边缘/云端部署 |
| 剪枝 (50%) | ~2倍 | 大量重训练 | 可能较大 | 模型压缩 |
| 知识蒸馏 | 2-3倍 | 小模型完全重训练 | 能力较低 | 创建小型模型 |
| FlashAttention-2 | 1.2-1.5倍 | 无需 | 无 | 硬件利用率提升 |

数据要点: 此对比凸显了SAA独特的价值主张:它提供了目前声称最高的加速倍数,同时所需的再训练过程破坏性最小,并能保持精度,这使其有潜力成为生产环境中大规模语言模型首选的优化步骤。

时间归档

April 2026995 篇已发布文章

延伸阅读

马克的魔法乘法:一场瞄准AI计算核心的算法革命一种被非正式称为'马克的魔法乘法'的全新计算范式正在浮现,有望成为AI效率领域的颠覆性力量。该方法旨在从根本上重构Transformer模型核心的稠密矩阵乘法运算,承诺带来训练和推理速度的数量级提升,同时大幅降低前沿AI开发的资源门槛。非传统路径如何重塑AI开发工具:Claude Code的启示录Anthropic旗下AI编程助手Claude Code的意外成功,与其首席架构师非传统的职业背景密不可分。这一案例揭示:对开发者实际痛点的深度迭代式洞察——而非中心化实验室的理论突破——正在催生最具影响力的LLM应用。中国发布36.4万对超声数据集:终结“唯图像”时代,开启临床AI推理新纪元一项包含36.4万对超声图像与专业诊断文本配对的里程碑式数据集正式发布,它成功弥合了医学影像与诊断语言之间的关键鸿沟。这一基础性资源将推动AI超越单纯的模式识别,迈入真正的临床推理阶段,为能够理解语境、生成报告并实时指导操作医师的智能诊断助克劳德的数字考古学突破:AI如何用一个周末复活失落的90年代游戏Anthropic的Claude AI通过自主破译开发者未公开的自定义脚本语言,成功复活了一款失落的1990年代电子游戏。这项仅耗时一个周末的成就不仅是技术怀旧,更从根本上重新定义了人工智能解读与重构复杂遗留系统的能力边界。

常见问题

GitHub 热点“Peking University's Attention Breakthrough Delivers 4x LLM Speed Without Retraining”主要讲了什么?

A breakthrough from Peking University's AI research division targets the computational heart of modern large language models: the attention mechanism. The team has engineered a plu…

这个 GitHub 项目在“how to implement Peking University attention optimization”上为什么会引发关注?

The core innovation lies in a re-architected attention computation process. The standard scaled dot-product attention in a Transformer, formulated as Attention(Q, K, V) = softmax(QKᵀ/√d)V, has a computational complexity…

从“Sparse-Aggregate Attention vs FlashAttention benchmark”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。