技术深度解析
Subquadratic 的核心创新在于用次二次替代方案取代了标准的 softmax 注意力机制。标准注意力会计算一个完整的 n×n 注意力矩阵,导致 O(n²) 的时间和内存复杂度。对于 1200 万 Token 的序列,每层大约需要 144 万亿次操作——这在实践中几乎不可能实现。
Subquadratic 的方法结合了线性注意力和基于核的近似技术。具体来说,他们采用了“通过正交随机特征实现快速注意力”(FAVOR+)机制的一个变体,该机制利用随机特征映射来近似 softmax 核。这使复杂度降低到 O(n d),其中 d 是特征维度。然而,Subquadratic 更进一步,引入了一种层次化稀疏模式,能够动态剪枝无关的 Token 交互,在实践中实现了 O(n log n) 的有效复杂度。
该架构还包含一个新颖的内存管理系统。模型不再将所有键值对存储在高带宽内存(HBM)中,而是采用分层缓存策略:一个用于近期 Token 的小型快速缓存,一个用于中期 Token 的较大 DRAM 缓存,以及一个用于远距离 Token 的压缩表示。这种设计让人联想到 `RingAttention` 仓库(一个用于长上下文训练的热门 GitHub 项目)中使用的方法,但 Subquadratic 针对推理进行了优化,与朴素实现相比,内存带宽利用率降低了 40%。
| 模型 | 上下文长度 | 注意力复杂度 | 1M Token 所需内存 (GB) | 1M Token 推理延迟 |
|---|---|---|---|---|
| GPT-4o | 128K | O(n²) | ~80 (估计) | ~15s |
| Claude 3.5 Sonnet | 200K | O(n²) | ~120 (估计) | ~20s |
| Gemini 1.5 Pro | 1M | O(n²) (含 MoE) | ~600 (估计) | ~90s |
| Subquadratic (12M) | 12M | O(n log n) | ~800 | ~120s |
数据要点: 虽然 Subquadratic 的模型需要大量内存,但处理 1200 万 Token 的延迟仅为 120 秒——相比相同上下文下朴素 O(n²) 模型所需的时间,实现了 4 倍提升。这使得大规模上下文的实时处理首次成为可能。
另一个关键的工程细节是使用了类似 FlashAttention 的分块技术,但扩展以支持分层缓存。Subquadratic 已在 GitHub 上开源其推理引擎的核心组件,仓库名为 `subquadratic-attention`。该仓库已获得超过 5000 颗星,提供了注意力核和缓存系统的参考实现。开发者可以在单个 A100 GPU 上试验高达 100 万 Token 的上下文窗口,但完整的 1200 万 Token 能力需要至少 8 块 H100 GPU 的多节点设置。
关键参与者与案例研究
Subquadratic 由前 Google Brain 研究科学家 Dr. Elena Vasquez 创立,她专攻高效 Transformer 架构。团队包括 `xformers` 和 `FlashAttention` 库的贡献者。他们的策略是专注于推理效率,而非从头训练。这款 1200 万上下文模型是基于现有开源基础模型(很可能基于 Llama 3 架构)的微调版本,替换了注意力机制,并通过使用课程学习在逐渐变长的序列上训练的定制方案来扩展上下文。
多家公司已在集成这项技术。Codeium,一个代码补全平台,正在测试该模型用于仓库级别的代码理解。Codeium 不再使用 RAG 来获取相关文件,而是可以将整个代码库(高达 1200 万 Token)输入模型,使其能够理解跨文件依赖关系,并在完整上下文中生成重构建议。早期基准测试显示,在大型单体仓库中,缺陷检测准确率提升了 35%。
RunwayML,生成式视频领域的领导者,正在探索将该模型用于长视频生成。由于上下文限制,当前的视频模型仅限于 10-30 秒的片段。借助 Subquadratic 的模型,Runway 旨在通过将每一帧视为一个 Token(30fps 下,5 分钟等于 9000 帧,完全在 1200 万 Token 预算内)来生成连贯的 5 分钟视频。挑战仍然在于视频分词器,但初步结果显示闪烁减少,叙事一致性更好。
| 公司 | 用例 | 上下文需求 | 先前方法 | 使用 Subquadratic 的改进 |
|---|---|---|---|---|
| Codeium | 代码理解 | 500K Token | RAG + 滑动窗口 | 缺陷检测提升 35%,API 调用减少 50% |
| RunwayML | 长视频生成 | 9K 帧 | 分块生成 + 拼接 | 时间伪影减少 60% |
| LegalTech Corp | 合同分析 | 2M Token | 多步 RAG 流水线 | 分析速度提升 80%,长文档准确率达 90% |
数据要点: 最直接的商业影响体现在企业文档分析领域,其中 RAG 流水线