技术深度解析
标准Transformer自注意力的核心,是为长度为*n*的序列中的每一对令牌计算一个兼容性分数。这需要计算每个查询向量(来自令牌*i*)与每个键向量(来自令牌*j*)的点积,从而产生一个*n* × *n*的注意力矩阵。计算成本以O(n²d)的规模增长,其中*d*是特征维度。尽管像FlashAttention这样的技术已经优化了内存访问模式,但计算量在*n*上呈二次方增长的根本问题依然存在。
稀疏特征注意力从*特征*维度上解决这个问题。在如《Sparse Feature Attention for Long-Context Transformers》论文等研究中探索的开创性思想提出,不再将查询和键表示为稠密的*d*维向量,而是在一个更高维的特征空间*D*(其中*D* >> *d*)中表示为稀疏向量。关键在于,稀疏模式是动态学习得到的。
运作机制:
1. 稀疏编码: 一个学习到的函数将每个令牌的隐藏状态映射到高维空间中的一个稀疏编码(例如,使用受局部敏感哈希或学习型稀疏自编码器启发的技术)。输出是一个向量,其中只有固定且数量很少的*k*个条目是非零的(*k*-稀疏)。
2. 高效相似度计算: 两个令牌之间的注意力分数变得与其活跃(非零)特征集合的交集大小成正比。这可以通过哈希表查找或对索引进行集合交集操作来极高效率地计算,绕过了稠密点积的需要。计算复杂度从O(n²d)转变为大约O(n²k),甚至在使用巧妙数据结构时可达O(nk log D),其中*k*是恒定的小常数。
3. 梯度流: 挑战在于使这种离散的稀疏选择在训练时可微分。解决方案通常在训练时采用连续松弛技术,如Gumbel-Softmax技巧或直通估计器,而在推理时使用硬稀疏以获得最大速度。
一个相关的开源探索是`long-range-arena` GitHub仓库(及其后继者),它已成为长上下文模型的标准基准测试场。虽然不专用于SFA,但它提供了基础设施,用于将这些方法与Longformer或Performer等基线进行对比测试。更直接的是,关于“Hashformers”或“Sparse Transformers with Learned Feature Hashing”的论文研究代码经常出现在GitHub上,展示了在受控环境下能在长序列注意力层上实现5-10倍加速的原型实现。
| 注意力方法 | 理论复杂度 | 核心机制 | 主要权衡 |
|----------------------|----------------|----------------------------|----------------------------------|
| 完全注意力 | O(n²d) | 全配对点积 | 对于大n成本过高 |
| 局部/窗口注意力 | O(nw d) | 在固定窗口w内计算注意力 | 丢失全局上下文 |
| 线性注意力(如Performer) | O(nd²) | Softmax的核函数近似 | 近似误差,随机特征的内存占用 |
| 稀疏注意力(如BigBird) | O(n√n d) | 随机+全局+局部模式组合 | 启发式模式可能不适用于所有数据 |
| 稀疏特征注意力(SFA) | O(nk log D) | 稀疏高维特征交集 | 复杂度转移到学习稀疏编码;若k太小存在信息丢失风险 |
数据要点: 上表揭示了SFA独特的价值主张:它在理论上将计算与序列长度*n*和标准特征维度*d*解耦,转而将其与恒定的稀疏编码大小*k*绑定。这是其能够扩展到百万令牌序列的数学基础。
关键参与者与案例研究
SFA的发展目前由大型AI组织内部的研究实验室和学术界主导,因为这需要深刻的架构创新。
Google DeepMind 一直是替代性注意力机制的持续探索者。虽然其具有100万令牌上下文窗口的标志性模型Gemini 1.5据称使用了混合专家系统(MoE)和其他效率增益技术,但其研究部门已就高效注意力发表了大量论文。像Lukasz Kaiser(Transformer的共同发明者)这样的研究人员,一直在研究用于注意力的局部敏感哈希等领域,这在概念上与SFA相近。内部项目很可能正在严格测试特征稀疏化技术。
Anthropic的Claude 3模型,特别是拥有20万上下文的Claude 3.5 Sonnet,展示了对实用长上下文推理的强烈关注。虽然Anthropic未披露是否使用SFA,但其技术报告强调通过新颖的训练方法和架构选择来提高上下文利用率。他们提升长上下文中“诚实性”和可靠性的研究理念,与SFA这种旨在保持准确性的同时提升效率的方法完美契合。
初创公司与研究实验室: 像Cohere(Command R+)和Mistral这样的实体,也因其对高效、实用长上下文模型的关注而成为该领域的活跃参与者。它们的研究和工程工作可能正在探索或整合类似SFA的稀疏化技术,以在竞争激烈的市场中实现差异化。