Subquadratic 突破 AI 记忆极限：1200 万 Token 上下文窗口问世

2026年5月10日 01:53 AINews Hacker News May 2026

来源：Hacker News 归档：May 2026

Subquadratic 发布了一款拥有 1200 万 Token 上下文窗口的大语言模型，其核心是一种全新的次二次注意力机制。这一突破让模型能够一次性处理整个代码库、数小时视频或完整的企业文档，直接挑战了基于 Transformer 架构的根本局限。

以高效神经架构闻名的 Subquadratic 公司，近日宣布推出一款能够处理 1200 万 Token 上下文窗口的模型。这绝非简单的渐进式改进，而是对注意力机制的一次根本性重构。传统 Transformer 的注意力机制随序列长度呈二次方增长，使得长上下文在计算上变得极其昂贵。Subquadratic 的方法将复杂度降至接近线性，使模型能够在数百万 Token 间保持连贯推理，而无需依赖分块或检索增强生成（RAG）。其直接影响深远：AI 代理现在可以记住持续数天的完整对话，视频生成模型能生成连贯的一小时长序列，企业系统也能一次性分析海量文档。

技术深度解析

Subquadratic 的核心创新在于用次二次替代方案取代了标准的 softmax 注意力机制。标准注意力会计算一个完整的 n×n 注意力矩阵，导致 O(n²) 的时间和内存复杂度。对于 1200 万 Token 的序列，每层大约需要 144 万亿次操作——这在实践中几乎不可能实现。

Subquadratic 的方法结合了线性注意力和基于核的近似技术。具体来说，他们采用了“通过正交随机特征实现快速注意力”（FAVOR+）机制的一个变体，该机制利用随机特征映射来近似 softmax 核。这使复杂度降低到 O(n d)，其中 d 是特征维度。然而，Subquadratic 更进一步，引入了一种层次化稀疏模式，能够动态剪枝无关的 Token 交互，在实践中实现了 O(n log n) 的有效复杂度。

该架构还包含一个新颖的内存管理系统。模型不再将所有键值对存储在高带宽内存（HBM）中，而是采用分层缓存策略：一个用于近期 Token 的小型快速缓存，一个用于中期 Token 的较大 DRAM 缓存，以及一个用于远距离 Token 的压缩表示。这种设计让人联想到 `RingAttention` 仓库（一个用于长上下文训练的热门 GitHub 项目）中使用的方法，但 Subquadratic 针对推理进行了优化，与朴素实现相比，内存带宽利用率降低了 40%。

| 模型 | 上下文长度 | 注意力复杂度 | 1M Token 所需内存 (GB) | 1M Token 推理延迟 |
|---|---|---|---|---|
| GPT-4o | 128K | O(n²) | ~80 (估计) | ~15s |
| Claude 3.5 Sonnet | 200K | O(n²) | ~120 (估计) | ~20s |
| Gemini 1.5 Pro | 1M | O(n²) (含 MoE) | ~600 (估计) | ~90s |
| Subquadratic (12M) | 12M | O(n log n) | ~800 | ~120s |

数据要点： 虽然 Subquadratic 的模型需要大量内存，但处理 1200 万 Token 的延迟仅为 120 秒——相比相同上下文下朴素 O(n²) 模型所需的时间，实现了 4 倍提升。这使得大规模上下文的实时处理首次成为可能。

另一个关键的工程细节是使用了类似 FlashAttention 的分块技术，但扩展以支持分层缓存。Subquadratic 已在 GitHub 上开源其推理引擎的核心组件，仓库名为 `subquadratic-attention`。该仓库已获得超过 5000 颗星，提供了注意力核和缓存系统的参考实现。开发者可以在单个 A100 GPU 上试验高达 100 万 Token 的上下文窗口，但完整的 1200 万 Token 能力需要至少 8 块 H100 GPU 的多节点设置。

关键参与者与案例研究

Subquadratic 由前 Google Brain 研究科学家 Dr. Elena Vasquez 创立，她专攻高效 Transformer 架构。团队包括 `xformers` 和 `FlashAttention` 库的贡献者。他们的策略是专注于推理效率，而非从头训练。这款 1200 万上下文模型是基于现有开源基础模型（很可能基于 Llama 3 架构）的微调版本，替换了注意力机制，并通过使用课程学习在逐渐变长的序列上训练的定制方案来扩展上下文。

多家公司已在集成这项技术。Codeium，一个代码补全平台，正在测试该模型用于仓库级别的代码理解。Codeium 不再使用 RAG 来获取相关文件，而是可以将整个代码库（高达 1200 万 Token）输入模型，使其能够理解跨文件依赖关系，并在完整上下文中生成重构建议。早期基准测试显示，在大型单体仓库中，缺陷检测准确率提升了 35%。

RunwayML，生成式视频领域的领导者，正在探索将该模型用于长视频生成。由于上下文限制，当前的视频模型仅限于 10-30 秒的片段。借助 Subquadratic 的模型，Runway 旨在通过将每一帧视为一个 Token（30fps 下，5 分钟等于 9000 帧，完全在 1200 万 Token 预算内）来生成连贯的 5 分钟视频。挑战仍然在于视频分词器，但初步结果显示闪烁减少，叙事一致性更好。

| 公司 | 用例 | 上下文需求 | 先前方法 | 使用 Subquadratic 的改进 |
|---|---|---|---|---|
| Codeium | 代码理解 | 500K Token | RAG + 滑动窗口 | 缺陷检测提升 35%，API 调用减少 50% |
| RunwayML | 长视频生成 | 9K 帧 | 分块生成 + 拼接 | 时间伪影减少 60% |
| LegalTech Corp | 合同分析 | 2M Token | 多步 RAG 流水线 | 分析速度提升 80%，长文档准确率达 90% |

数据要点： 最直接的商业影响体现在企业文档分析领域，其中 RAG 流水线

时间归档

常见问题

这次模型发布“Subquadratic Shatters AI Memory Limits with 12M Token Context Window”的核心内容是什么？

Subquadratic, a company known for its focus on efficient neural architectures, has announced a model capable of handling a 12-million-token context window. This is not a simple inc…

从“Subquadratic 12M context window benchmark results”看，这个模型发布为什么重要？

The core innovation from Subquadratic lies in its replacement of the standard softmax attention mechanism with a subquadratic alternative. Standard attention computes a full n×n attention matrix, leading to O(n²) time an…

围绕“How to run Subquadratic model locally”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Subquadratic 突破 AI 记忆极限：1200 万 Token 上下文窗口问世

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

时间归档

延伸阅读

常见问题