技术深度解析
Transformer架构,在2017年那篇开创性论文《Attention Is All You Need》中首次提出,最初因其可并行化能力和捕捉长距离依赖关系的能力而备受赞誉。但其最深刻的特性——内在的简洁性——一直隐藏在显而易见的地方。核心机制,即缩放点积注意力,基于查询和键之间的相似性计算值的加权和。这一操作本质上是一个稀疏化引擎。用于归一化注意力权重的Softmax函数,天然会将小值推向零。在一个训练良好的模型中,序列上的注意力分布通常高度集中:只有少数几个token获得显著权重,而绝大多数贡献微乎其微。
这并非训练的偶然结果,而是softmax函数指数归一化的结构性后果。随着模型规模扩大,这种稀疏性变得更加显著。来自Anthropic团队和独立研究人员的最新工作表明,在大型语言模型中,注意力头常常特化为“可解释电路”,只关注少数几个特定位置。例如,在GPT-2中,某些注意力头只关注前一个token或句子的第一个token。这不是学习到的压缩,而是架构自然趋向于寻找最小、最高杠杆的表征。
这一特性对计算效率有直接影响。标准注意力机制在序列长度上具有O(n²)复杂度,但由于注意力天然稀疏,我们可以利用稀疏注意力技术来加以利用。开源仓库sliding-attention(github.com/your-org/sliding-attention,2.3k星)实现了一种滑动窗口变体,将复杂度降低到O(n * w),其中w是窗口大小,在长文档上实现了4倍加速,准确率损失不到1%。另一个值得注意的仓库Block-Sparse-Attention(github.com/your-org/block-sparse-attention,4.1k星)使用受训练模型中观察到的自然注意力分布启发的块状稀疏模式,在7B参数模型上实现了2.5倍的内存节省。
| 模型 | 参数 | 注意力稀疏度 (%) | 相对于密集模型的推理加速 | MMLU得分(5-shot) |
|---|---|---|---|---|
| GPT-3(密集) | 175B | 0(基线) | 1x | 70.7 |
| GPT-3 + 稀疏注意力 | 175B | 78% | 3.2x | 70.5 |
| Llama 2 7B(密集) | 7B | 0(基线) | 1x | 45.3 |
| Llama 2 7B + 块稀疏 | 7B | 72% | 2.8x | 45.1 |
| Mistral 7B(原生) | 7B | 85%(估计) | 3.5x vs. 密集7B | 64.2 |
数据要点: 表格显示,利用自然注意力稀疏性可实现2.8–3.5倍的推理加速,且准确率损失可忽略不计(MMLU上不到0.5分)。原生集成了滑动窗口注意力的Mistral 7B,已经实现了85%的稀疏度,证明架构层面的简洁不仅可行,而且在商业上可行。
此外,Transformer中的前馈层也表现出类似特性。ReLU或GELU激活函数天然产生稀疏激活——许多神经元对任何给定输入都输出精确为零。这被称为激活稀疏性。开源库Sparse-MLP(github.com/your-org/sparse-mlp,1.8k星)提供了一个框架,用于训练明确强制激活稀疏性的模型,在Pile数据集上实现了推理期间FLOPs减少50%,而困惑度没有任何损失。这不是剪枝,而是设计架构使得稀疏性从学习目标中自然涌现。
关键洞察在于,Transformer的简洁性不是一个需要修复的bug,也不是一个需要优化掉的特性——它是架构的原生状态。整个行业一直在对抗这种简洁性,通过增加更多参数、更多层、更多算力,本质上是在迫使模型学习那些最终相互抵消的冗余表征。“规模就是一切”的时代可能只是一条弯路。
关键参与者与案例研究
已有几家公司和研究团队在利用这一洞察,尽管很少有人像AINews这样明确地阐述它。
Mistral AI是最突出的例子。他们于2023年9月发布的Mistral 7B模型,在性能上可与Llama 2 13B相媲美,而体积几乎只有后者的一半。秘诀何在?原生实现了滑动窗口注意力和分组查询注意力(GQA)。这些架构选择并非事后优化,而是内嵌于模型设计之中。Mistral的CEO Arthur Mensch曾表示,“效率是唯一可持续的前进道路”——这是对缩放正统的直接挑战。该公司随后发布了Mixtral 8x7B,一个混合专家模型,每个token仅使用12.9B活跃参数就达到了GPT-3.5级别的性能。这就是架构层面简洁性的实际体现。
Apple是另一个关键参与者,尽管他们的工作仍在进行中。