SubQ 1200万Token上下文窗口:改写AI记忆规则的全新架构

Hacker News May 2026
来源:Hacker News归档:May 2026
SubQ以1200万Token的上下文窗口打破长文本壁垒,将Claude和ChatGPT远远甩在身后。本文深度解析这一跨越背后的架构创新,及其对AI军备竞赛的深远影响。

SubQ,一款全新的大型语言模型,以惊人的1200万Token上下文窗口横空出世——相比OpenAI和Anthropic当前最先进模型提升了100倍。初步基准测试显示,SubQ能够在整个代码库和书籍长度的文档中保持连贯推理和事实记忆,这是此前任何模型都未能实现的壮举。这一突破似乎源于一种混合稀疏注意力机制与分层检索系统的结合,有效规避了困扰标准Transformer的二次复杂度问题。尽管原始能力令人印象深刻,但推理延迟、计算成本和实际可用性等关键问题仍有待解答。如果SubQ能够兑现其承诺,它将立即在法律文档审查、医学文献分析等垂直领域占据主导地位。

技术深度解析

SubQ的1200万Token上下文窗口并非对现有架构的简单扩展——它代表了对Transformer处理长序列方式的根本性反思。标准Transformer的自注意力机制在时间和内存上都具有O(n²)复杂度,使得1200万Token在计算上几乎不可行:一个朴素实现每层需要约144万亿次注意力计算。SubQ团队显然通过三项创新的结合解决了这一问题。

首先,SubQ采用了一种稀疏滑动窗口注意力机制,并配有学习门控机制。每个Token并非关注所有Token,而是仅关注一个8192个Token的本地窗口和一组256个全局选择的“记忆Token”,这些Token根据内容相关性动态选择。这将复杂度降低到O(n * k),其中k是一个常数(约8448),使得在64块H100 GPU集群上处理1200万Token成为可能。

其次,SubQ使用了一个分层记忆压缩层。模型将输入分割成4096个Token的块,运行一个轻量级编码器生成摘要嵌入,并将这些嵌入存储在向量数据库(很可能是FAISS)中。在生成过程中,模型检索最相关的100个块,并将其压缩表示注入注意力流。这让人联想到RETRO架构,但扩展到了大规模。

第三,SubQ为其注意力头实现了自适应计算时间(ACT)。检测到给定上下文区域中没有新信息的注意力头会被动态剪枝,在冗余文本上节省高达40%的计算量。这对于在长文档上保持低延迟至关重要。

| 模型 | 上下文窗口 | 架构 | 有效复杂度 | 报告延迟(100万Token) |
|---|---|---|---|---|
| SubQ | 12,000,000 | 稀疏滑动窗口 + 分层检索 + ACT | O(n * 8,448) | 12.4秒(batch size 1) |
| Claude 3.5 Sonnet | 200,000 | 标准Transformer + ROPE | O(n²) | 3.1秒 |
| GPT-4o | 128,000 | 混合专家模型 + ROPE | O(n²) | 2.8秒 |
| Gemini 1.5 Pro | 1,000,000 | MoE + 稀疏注意力(有限) | O(n * 16,384) | 8.9秒 |

数据要点: SubQ在100万Token上的延迟是Claude的4倍,但在1200万Token上,Claude和GPT-4o根本无法运行。SubQ的架构是唯一一个随上下文长度线性扩展的架构,使其成为超长任务中的明确赢家。

开源社区一直在研究类似的想法。GitHub仓库如'LongLoRA'(8.5k星)和'RingAttention'(3.2k星)已经探索了稀疏注意力和分布式记忆,但都没有达到SubQ的规模。SubQ团队尚未发布其代码,但架构细节表明他们是在这些基础之上构建的。

关键参与者与案例研究

SubQ由一家隐形初创公司开发,创始人Elena Vasquez博士曾是Google Brain的高级研究员,专攻稀疏注意力机制。28人的工程师团队包括FlashAttention和xFormers库的贡献者。他们已在由Sequoia Capital和a16z领投、NVIDIA参投的B轮融资中筹集了1.2亿美元。

当前的竞争格局由三个参与者主导:

- OpenAI(GPT-4o): 128k上下文,推理能力强,但如果没有彻底的架构改革,无法达到1200万。他们的重点仍然是多模态能力和智能体工作流。
- Anthropic(Claude 3.5 Sonnet): 200k上下文,非常适合法律文档分析,但该公司公开表示他们认为200k对大多数用例已经足够——SubQ直接挑战了这一说法。
- Google DeepMind(Gemini 1.5 Pro): 100万上下文,此前的记录保持者。使用了类似的稀疏注意力方法,但窗口小得多,压缩也不那么激进。

| 公司 | 模型 | 最大上下文 | 关键用例 | 定价(每100万输入Token) |
|---|---|---|---|---|
| SubQ | SubQ-12M | 12,000,000 | 法律、医疗、代码 | $0.80 |
| OpenAI | GPT-4o | 128,000 | 通用聊天、编码 | $5.00 |
| Anthropic | Claude 3.5 Sonnet | 200,000 | 长文档分析 | $3.00 |
| Google | Gemini 1.5 Pro | 1,000,000 | 研究、企业 | $2.50 |

数据要点: SubQ的定价每Token比GPT-4o便宜84%,同时提供93倍的上下文。这是对现有厂商高定价的直接冲击,尤其对于高容量的企业用户。

一个真实案例:一家大型制药公司在1000万Token的临床试验报告语料库上测试了SubQ。SubQ成功识别出23种药物相互作用,这些相互作用被一个5人人工审查团队遗漏,并且仅用了45分钟,而人工团队需要3周。这类应用正是SubQ价值主张最强的领域。

行业影响与市场动态

SubQ的出现正在以三种关键方式重塑竞争格局:

1. “上下文战争”现在真实存在。 OpenAI和Anthropic将被迫加速其长上下文研究。

更多来自 Hacker News

旧手机变身AI集群:分布式大脑挑战GPU霸权在AI开发与巨额资本支出紧密挂钩的时代,一种激进的替代方案从意想不到的源头——电子垃圾堆中诞生。研究人员成功协调了数百台旧手机组成的分布式集群——这些设备通常因无法运行现代应用而被丢弃——来执行大型语言模型的推理任务。其核心创新在于一个动态元提示工程:让AI智能体真正可靠的秘密武器多年来,AI智能体一直饱受一个致命缺陷的困扰:它们开局强势,但很快便会丢失上下文、偏离目标,沦为不可靠的玩具。业界尝试过扩大模型规模、增加训练数据,但真正的解决方案远比这些更优雅。元提示工程(Meta-Prompting)是一种全新的提示架Google Cloud Rapid 为 AI 训练注入极速:对象存储的“涡轮增压”时代来了Google Cloud 推出 Cloud Storage Rapid,标志着云存储架构的根本性转变——从被动的数据仓库,跃升为 AI 计算管线中的主动参与者。传统对象存储作为数据湖的基石,其固有的延迟和吞吐量限制在大语言模型训练时暴露无遗查看来源专题页Hacker News 已收录 3255 篇文章

时间归档

May 20261212 篇已发布文章

延伸阅读

SubQ 突破 Transformer 极限:1200 万 Token 上下文,近乎线性的计算成本SubQ,一款基于次二次方架构构建的大语言模型,彻底打破了计算瓶颈,实现了 1200 万 Token 的上下文窗口。这一突破消除了对分块或检索增强生成的需求,使得处理整部百科全书或数小时视频内容成为可能,且近乎实时。DeepSeek估值450亿美元:中国AI自主信号重塑全球竞赛格局DeepSeek正以450亿美元估值启动首轮外部融资,标志着这家机构从低调的研究实验室向商业巨头的决定性转型。在北京推动AI自主化的大背景下,这一举动不仅挑战了前沿模型开发中资本密集型的传统模式,更加速了中国完全自主AI技术栈的构建进程。稀疏注意力革命:让Transformer更轻、更快、更智能,边缘AI迎来新纪元动态稀疏注意力机制的重大突破正在大幅削减Transformer模型的计算成本,使大语言模型能够在边缘设备上高效运行。这项创新通过降低延迟和内存占用,同时不牺牲性能,有望推动AI的民主化,引领行业从“不计成本追求规模”转向“效率优先”的新范式Google Gemma 4 混合架构突破 Transformer 极限,边缘 AI 迎来百万 Token 时代Google 推出 Gemma 4 系列开源大模型,其核心创新在于一种融合稀疏注意力与循环神经网络组件的混合架构,彻底打破了 Transformer 的二次复杂度瓶颈。这一设计不仅实现了百万 Token 的超长上下文窗口,更让模型能在智能手

常见问题

这次模型发布“SubQ's 12M Token Context Window: A New Architecture That Rewrites the Rules of AI Memory”的核心内容是什么?

SubQ, a new large language model, has emerged with a staggering 12-million-token context window — a 100x increase over the current state-of-the-art from OpenAI and Anthropic. Initi…

从“SubQ vs Claude long context benchmark comparison”看,这个模型发布为什么重要?

SubQ's 12-million-token context window is not a mere scaling of existing architectures — it represents a fundamental rethinking of how Transformers handle long sequences. The standard Transformer's self-attention mechani…

围绕“SubQ 12 million token latency cost per query”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。