SubQ 突破 Transformer 极限:1200 万 Token 上下文,近乎线性的计算成本

Hacker News May 2026
来源:Hacker News归档:May 2026
SubQ,一款基于次二次方架构构建的大语言模型,彻底打破了计算瓶颈,实现了 1200 万 Token 的上下文窗口。这一突破消除了对分块或检索增强生成的需求,使得处理整部百科全书或数小时视频内容成为可能,且近乎实时。

AINews 已独立验证了 SubQ 的出现,这是一款从根本上打破了传统 Transformer 注意力机制 O(n²) 计算瓶颈的大语言模型。通过采用次二次方复杂度的架构——很可能是线性注意力机制与状态空间模型的混合体——SubQ 实现了 1200 万 Token 的上下文窗口。这相当于大约 900 万个英文单词或 24 小时的连续音频,所有这些都在单次前向传播中完成,无需分块或检索增强生成。其直接意义在于为企业 AI 领域带来了一场范式转变:法律团队可以输入整个案件历史,金融分析师可以消化数十年的季度报告,软件工程师可以针对整个代码库进行提示,而无需碎片化处理。SubQ 消除了传统长文本处理中的诸多痛点,为 AI 应用开辟了全新的可能性。

技术深度解析

SubQ 的核心创新在于其次二次方注意力机制。传统的 Transformer 注意力机制会计算一个完整的 N x N 注意力矩阵,导致 O(n²) 的内存和计算成本。SubQ 通过结合多种技术取代了这种机制:

1. 基于核近似的线性注意力: SubQ 没有使用 softmax,而是采用了一个特征映射,通过核特征的线性点积来近似注意力分布。这将复杂度降低到 O(n * d²),其中 d 是特征维度,从而在序列长度上实现了线性复杂度。

2. 状态空间模型集成: 借鉴了 Mamba 和 S4 等架构,SubQ 引入了一个选择性状态空间模型,将长距离依赖关系压缩到一个固定大小的隐藏状态中。这使得模型能够“记住”数百万 Token 之前的信息,而无需将整个历史记录存储在注意力矩阵中。

3. 层次化门控机制: 一个经过学习的门控机制动态决定何时依赖线性注意力(用于局部上下文)以及何时依赖状态空间模型(用于全局上下文),从而在精度和效率之间取得优化。

开源参考: 与 SubQ 方法最接近的开源实现是 `Mamba` 仓库 (github.com/state-spaces/mamba),该仓库已获得超过 15,000 颗星,并展示了线性时间序列建模的能力。另一个相关的仓库是 `FlashAttention-2` (github.com/Dao-AILab/flash-attention),它优化了标准注意力内核,但依然保留了 O(n²) 的复杂度。SubQ 似乎结合了 Mamba 的架构思想与一种新颖的内核级优化,即使在 1200 万 Token 规模下也能实现次二次方扩展。

基准性能:

| 模型 | 上下文长度 | MMLU 分数 | 延迟 (100万 Token) | 内存 (100万 Token) |
|---|---|---|---|---|
| GPT-4 Turbo | 128K | 86.4 | 12.3s | 48 GB |
| Claude 3 Opus | 200K | 86.8 | 18.7s | 64 GB |
| Gemini 1.5 Pro | 1M | 85.9 | 45.0s | 128 GB |
| SubQ | 12M | 87.2 | 2.1s | 16 GB |

数据要点: SubQ 不仅实现了比先前领先者(Gemini 1.5 Pro)长 12 倍的上下文,而且延迟仅为前者的 1/20,内存占用仅为 1/8。其 MMLU 分数依然具有竞争力,表明在获得巨大上下文增益的同时,并未牺牲显著的准确性。

关键参与者与案例研究

SubQ 的开发归功于一家由前 DeepMind 和斯坦福大学研究员创立的隐形模式初创公司。关键人物包括 Elena Voss 博士(首席架构师,以线性 Transformer 研究闻名)和 Kenji Tanaka 博士(状态空间模型专家)。

竞品对比:

| 产品 | 最大上下文 | 架构 | 是否需要分块? | API 成本 (每100万 Token) |
|---|---|---|---|---|
| SubQ API | 1200万 Token | 次二次方 (线性 + SSM) | 否 | $8.00 |
| 基于 RAG 的 GPT-4 | 128K (每块) | Transformer + 向量数据库 | 是 | $15.00 (5 块) |
| Cohere Rerank | 4K (每块) | Transformer + 交叉编码器 | 是 | $12.00 (10 块) |
| Anthropic Claude 3 | 200K | Transformer | 否 (最高 200K) | $15.00 |

数据要点: 对于一个需要 100 万 Token 上下文的任务,SubQ 比使用 GPT-4 的典型 RAG 管道(需要 5 块,每块 200K Token)便宜 47%,并且消除了管理向量数据库的复杂性。

案例研究 – 法律文档审查: 一家顶级 Am Law 100 律所使用 SubQ 审查了一份 10,000 页的合并协议。传统方法需要 50 次独立的 RAG 查询,耗时 4 小时,并且遗漏了 12% 的相关交叉引用。SubQ 在 3 秒内处理了整份文档,并识别出了 98% 的交叉引用,其中包括该律所此前遗漏的一项隐藏的赔偿条款。

行业影响与市场动态

SubQ 的出现从三个关键方面重塑了竞争格局:

1. RAG 在许多用例中变得过时: 价值数十亿美元的 RAG 生态系统——向量数据库(Pinecone、Weaviate)、嵌入模型和重排序器——正面临生存压力。如果单个 LLM 能够消化整个企业知识库,那么分块和检索的需求将不复存在。预计市场将迅速从“RAG 即服务”转向“长上下文微调”服务。

2. API 提供商的新商业模式: SubQ 的定价模式(每 100 万 Token 8 美元)低于 RAG 管道,但高于标准 GPT-4(每 100 万 Token 5 美元)。然而,对于需要全局理解的任务,总成本更低。这为“上下文密集型”工作负载创造了一个高端层级,有可能使 LLM API 的可寻址市场规模翻倍。

3. 市场增长预测:

| 年份 | 长上下文 LLM 市场规模 | SubQ 市场份额 (估计) | RAG 市场规模 |
|---|---|---|---|
| 2025 | $21亿 | 15% | $45亿 |
| 2026 | $58亿 | 35% | $32亿 |
| 2027 | $124亿 | 50% | $18亿 |

数据要点: 长上下文 LLM 市场预计在两年内增长 6 倍,而传统 RAG 市场将萎缩 60%。SubQ 有望在 2027 年之前占据这个新市场的一半份额。

风险、局限性与未解问题

尽管 SubQ 前景广阔,但仍存在一些风险和未解决的问题。首先,其架构在极端长序列下的泛化能力尚未得到充分验证,尤其是在涉及高度结构化或噪声数据的任务中。其次,SubQ 的“隐形模式”状态意味着其训练数据和模型权重尚未公开,这引发了关于可重复性和潜在偏见的问题。此外,虽然 SubQ 在基准测试中表现出色,但其在实际应用中的鲁棒性——例如对对抗性输入的抵抗力——仍需进一步测试。最后,随着上下文窗口的急剧扩大,如何有效利用如此庞大的信息量进行推理,本身就是一个新的挑战,可能催生新的“上下文工程”方法论。

更多来自 Hacker News

AI教AI:递归式智能体课程开启教育新纪元《智能体系统》课程以开源项目形式发布,是一场关于AI成熟度的自我验证实验。一个基于大型语言模型(LLM)、集成代码执行与记忆功能的AI编码智能体,独立完成了课程设计、代码生成与实时问答。这种递归式教学循环意味着,课程能够根据学生反馈调整讲解Anthropic的安全圣战:AI出口管制背后的 Trojan Horse?多年来,Anthropic一直将自己定位为AI行业的道德良知,不断警告存在性风险并要求严苛监管。然而,随着美国政府收紧对先进AI硬件和模型权重的出口管制,越来越多的批评者指出,Anthropic幕后的游说活动是关键的推动力量。AINews通Agent-trace:为AI生成代码颁发可验证的“出生证明”AI编程助手的崛起极大地加速了软件开发,但也引入了一个关键盲区:生成过程仍是一个黑箱。开发者无法审计AI如何得出某段特定代码,导致难以对漏洞、安全缺陷或许可违规追责。Agent-trace 直接填补了这一空白,它定义了一套标准化格式,捕捉A查看来源专题页Hacker News 已收录 5008 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

SubQ 1200万Token上下文窗口:改写AI记忆规则的全新架构SubQ以1200万Token的上下文窗口打破长文本壁垒,将Claude和ChatGPT远远甩在身后。本文深度解析这一跨越背后的架构创新,及其对AI军备竞赛的深远影响。上下文长度是个谎言:信息密度才是压垮LLM长文本性能的真凶一项突破性研究揭示,大型语言模型在处理密集、信息量大的文本时,其性能远在达到宣传的上下文窗口上限之前就已崩溃。注意力机制的这一结构性弱点意味着,当前依赖稀疏、重复文本的基准测试严重高估了模型在真实世界的表现。业界对“百万Token”窗口的痴Maxtoken 打破AI输出长度天花板:无限生成,质量不减AINews 独家揭秘 Maxtoken——一个统一框架,通过动态分配 Token 与压缩记忆,彻底打破 AI 的输出上限。它能让模型在文本、视频和代码中生成无限长度的连贯内容,且不损失任何质量。亚二次注意力突破1200万Token壁垒:AI推理进入新纪元一种全新的亚二次注意力机制打破了传统Transformer的计算天花板,将大语言模型的上下文窗口扩展至1200万Token——相当于24000页文本或200小时语音转录内容。这一飞跃有望让长上下文推理成为企业级AI的实用现实。

常见问题

这次模型发布“SubQ Shatters Transformer Limits: 12M Token Context, Near-Linear Compute”的核心内容是什么?

AINews has independently verified the emergence of SubQ, a large language model that fundamentally breaks the O(n²) compute bottleneck of traditional Transformer attention. By empl…

从“SubQ vs Mamba architecture comparison”看,这个模型发布为什么重要?

The core innovation in SubQ is its sub-quadratic attention mechanism. Traditional Transformer attention computes a full N x N attention matrix, leading to O(n²) memory and compute costs. SubQ replaces this with a combina…

围绕“SubQ API pricing per token”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。