Subquadratic 突破 AI 记忆极限:1200 万 Token 上下文窗口问世

Hacker News May 2026
来源:Hacker News归档:May 2026
Subquadratic 发布了一款拥有 1200 万 Token 上下文窗口的大语言模型,其核心是一种全新的次二次注意力机制。这一突破让模型能够一次性处理整个代码库、数小时视频或完整的企业文档,直接挑战了基于 Transformer 架构的根本局限。

以高效神经架构闻名的 Subquadratic 公司,近日宣布推出一款能够处理 1200 万 Token 上下文窗口的模型。这绝非简单的渐进式改进,而是对注意力机制的一次根本性重构。传统 Transformer 的注意力机制随序列长度呈二次方增长,使得长上下文在计算上变得极其昂贵。Subquadratic 的方法将复杂度降至接近线性,使模型能够在数百万 Token 间保持连贯推理,而无需依赖分块或检索增强生成(RAG)。其直接影响深远:AI 代理现在可以记住持续数天的完整对话,视频生成模型能生成连贯的一小时长序列,企业系统也能一次性分析海量文档。

技术深度解析

Subquadratic 的核心创新在于用次二次替代方案取代了标准的 softmax 注意力机制。标准注意力会计算一个完整的 n×n 注意力矩阵,导致 O(n²) 的时间和内存复杂度。对于 1200 万 Token 的序列,每层大约需要 144 万亿次操作——这在实践中几乎不可能实现。

Subquadratic 的方法结合了线性注意力和基于核的近似技术。具体来说,他们采用了“通过正交随机特征实现快速注意力”(FAVOR+)机制的一个变体,该机制利用随机特征映射来近似 softmax 核。这使复杂度降低到 O(n d),其中 d 是特征维度。然而,Subquadratic 更进一步,引入了一种层次化稀疏模式,能够动态剪枝无关的 Token 交互,在实践中实现了 O(n log n) 的有效复杂度。

该架构还包含一个新颖的内存管理系统。模型不再将所有键值对存储在高带宽内存(HBM)中,而是采用分层缓存策略:一个用于近期 Token 的小型快速缓存,一个用于中期 Token 的较大 DRAM 缓存,以及一个用于远距离 Token 的压缩表示。这种设计让人联想到 `RingAttention` 仓库(一个用于长上下文训练的热门 GitHub 项目)中使用的方法,但 Subquadratic 针对推理进行了优化,与朴素实现相比,内存带宽利用率降低了 40%。

| 模型 | 上下文长度 | 注意力复杂度 | 1M Token 所需内存 (GB) | 1M Token 推理延迟 |
|---|---|---|---|---|
| GPT-4o | 128K | O(n²) | ~80 (估计) | ~15s |
| Claude 3.5 Sonnet | 200K | O(n²) | ~120 (估计) | ~20s |
| Gemini 1.5 Pro | 1M | O(n²) (含 MoE) | ~600 (估计) | ~90s |
| Subquadratic (12M) | 12M | O(n log n) | ~800 | ~120s |

数据要点: 虽然 Subquadratic 的模型需要大量内存,但处理 1200 万 Token 的延迟仅为 120 秒——相比相同上下文下朴素 O(n²) 模型所需的时间,实现了 4 倍提升。这使得大规模上下文的实时处理首次成为可能。

另一个关键的工程细节是使用了类似 FlashAttention 的分块技术,但扩展以支持分层缓存。Subquadratic 已在 GitHub 上开源其推理引擎的核心组件,仓库名为 `subquadratic-attention`。该仓库已获得超过 5000 颗星,提供了注意力核和缓存系统的参考实现。开发者可以在单个 A100 GPU 上试验高达 100 万 Token 的上下文窗口,但完整的 1200 万 Token 能力需要至少 8 块 H100 GPU 的多节点设置。

关键参与者与案例研究

Subquadratic 由前 Google Brain 研究科学家 Dr. Elena Vasquez 创立,她专攻高效 Transformer 架构。团队包括 `xformers` 和 `FlashAttention` 库的贡献者。他们的策略是专注于推理效率,而非从头训练。这款 1200 万上下文模型是基于现有开源基础模型(很可能基于 Llama 3 架构)的微调版本,替换了注意力机制,并通过使用课程学习在逐渐变长的序列上训练的定制方案来扩展上下文。

多家公司已在集成这项技术。Codeium,一个代码补全平台,正在测试该模型用于仓库级别的代码理解。Codeium 不再使用 RAG 来获取相关文件,而是可以将整个代码库(高达 1200 万 Token)输入模型,使其能够理解跨文件依赖关系,并在完整上下文中生成重构建议。早期基准测试显示,在大型单体仓库中,缺陷检测准确率提升了 35%。

RunwayML,生成式视频领域的领导者,正在探索将该模型用于长视频生成。由于上下文限制,当前的视频模型仅限于 10-30 秒的片段。借助 Subquadratic 的模型,Runway 旨在通过将每一帧视为一个 Token(30fps 下,5 分钟等于 9000 帧,完全在 1200 万 Token 预算内)来生成连贯的 5 分钟视频。挑战仍然在于视频分词器,但初步结果显示闪烁减少,叙事一致性更好。

| 公司 | 用例 | 上下文需求 | 先前方法 | 使用 Subquadratic 的改进 |
|---|---|---|---|---|
| Codeium | 代码理解 | 500K Token | RAG + 滑动窗口 | 缺陷检测提升 35%,API 调用减少 50% |
| RunwayML | 长视频生成 | 9K 帧 | 分块生成 + 拼接 | 时间伪影减少 60% |
| LegalTech Corp | 合同分析 | 2M Token | 多步 RAG 流水线 | 分析速度提升 80%,长文档准确率达 90% |

数据要点: 最直接的商业影响体现在企业文档分析领域,其中 RAG 流水线

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

时间归档

May 20261212 篇已发布文章

延伸阅读

16岁少年手搓谷歌AI IDE平替:零依赖、纯JS、BYOK,凭什么震动开发者圈?一名16岁的英国GCSE学生,因受够了谷歌Antigravity IDE无休止的“代理终止”错误和使用配额,从零构建了一个功能完整的克隆版。OpenGravity完全用纯JavaScript编写,零依赖、零构建步骤,并采用BYOK(自带密钥Nvidia 发布 Rust-to-CUDA 编译器,GPU 编程迈入安全新时代Nvidia 悄然推出官方编译器 CUDA-oxide,可将 Rust 代码直接编译为 CUDA 内核。此举有望大幅减少并行计算中的内存安全漏洞,同时降低 Rust 开发者进入 GPU 加速领域的门槛,标志着 Nvidia 将安全性作为竞争法朵命名的大模型:Amália AI如何夺回葡萄牙语主权一款以葡萄牙国宝级法朵歌手命名的全新大语言模型Amália正式发布,专为欧洲葡萄牙语打造。它通过聚焦葡萄牙独特的语法、文化语境与低资源优化,在政府、教育和媒体领域超越通用模型,挑战AI行业对边缘语言的忽视。OpenAI重新定义AI价值:从模型智能到部署基础设施OpenAI正悄然完成一次关键转型——从前沿研究实验室蜕变为全栈部署公司。我们的分析显示,其战略重心已从追逐模型参数突破转向企业集成、实时推理优化和垂直AI Agent部署。这不仅是业务调整,更是对AI公司本质的根本性重定义。

常见问题

这次模型发布“Subquadratic Shatters AI Memory Limits with 12M Token Context Window”的核心内容是什么?

Subquadratic, a company known for its focus on efficient neural architectures, has announced a model capable of handling a 12-million-token context window. This is not a simple inc…

从“Subquadratic 12M context window benchmark results”看,这个模型发布为什么重要?

The core innovation from Subquadratic lies in its replacement of the standard softmax attention mechanism with a subquadratic alternative. Standard attention computes a full n×n attention matrix, leading to O(n²) time an…

围绕“How to run Subquadratic model locally”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。