SubQ 突破 Transformer 极限:1200 万 Token 上下文,近乎线性的计算成本

Hacker News May 2026
来源:Hacker News归档:May 2026
SubQ,一款基于次二次方架构构建的大语言模型,彻底打破了计算瓶颈,实现了 1200 万 Token 的上下文窗口。这一突破消除了对分块或检索增强生成的需求,使得处理整部百科全书或数小时视频内容成为可能,且近乎实时。

AINews 已独立验证了 SubQ 的出现,这是一款从根本上打破了传统 Transformer 注意力机制 O(n²) 计算瓶颈的大语言模型。通过采用次二次方复杂度的架构——很可能是线性注意力机制与状态空间模型的混合体——SubQ 实现了 1200 万 Token 的上下文窗口。这相当于大约 900 万个英文单词或 24 小时的连续音频,所有这些都在单次前向传播中完成,无需分块或检索增强生成。其直接意义在于为企业 AI 领域带来了一场范式转变:法律团队可以输入整个案件历史,金融分析师可以消化数十年的季度报告,软件工程师可以针对整个代码库进行提示,而无需碎片化处理。SubQ 消除了传统长文本处理中的诸多痛点,为 AI 应用开辟了全新的可能性。

技术深度解析

SubQ 的核心创新在于其次二次方注意力机制。传统的 Transformer 注意力机制会计算一个完整的 N x N 注意力矩阵,导致 O(n²) 的内存和计算成本。SubQ 通过结合多种技术取代了这种机制:

1. 基于核近似的线性注意力: SubQ 没有使用 softmax,而是采用了一个特征映射,通过核特征的线性点积来近似注意力分布。这将复杂度降低到 O(n * d²),其中 d 是特征维度,从而在序列长度上实现了线性复杂度。

2. 状态空间模型集成: 借鉴了 Mamba 和 S4 等架构,SubQ 引入了一个选择性状态空间模型,将长距离依赖关系压缩到一个固定大小的隐藏状态中。这使得模型能够“记住”数百万 Token 之前的信息,而无需将整个历史记录存储在注意力矩阵中。

3. 层次化门控机制: 一个经过学习的门控机制动态决定何时依赖线性注意力(用于局部上下文)以及何时依赖状态空间模型(用于全局上下文),从而在精度和效率之间取得优化。

开源参考: 与 SubQ 方法最接近的开源实现是 `Mamba` 仓库 (github.com/state-spaces/mamba),该仓库已获得超过 15,000 颗星,并展示了线性时间序列建模的能力。另一个相关的仓库是 `FlashAttention-2` (github.com/Dao-AILab/flash-attention),它优化了标准注意力内核,但依然保留了 O(n²) 的复杂度。SubQ 似乎结合了 Mamba 的架构思想与一种新颖的内核级优化,即使在 1200 万 Token 规模下也能实现次二次方扩展。

基准性能:

| 模型 | 上下文长度 | MMLU 分数 | 延迟 (100万 Token) | 内存 (100万 Token) |
|---|---|---|---|---|
| GPT-4 Turbo | 128K | 86.4 | 12.3s | 48 GB |
| Claude 3 Opus | 200K | 86.8 | 18.7s | 64 GB |
| Gemini 1.5 Pro | 1M | 85.9 | 45.0s | 128 GB |
| SubQ | 12M | 87.2 | 2.1s | 16 GB |

数据要点: SubQ 不仅实现了比先前领先者(Gemini 1.5 Pro)长 12 倍的上下文,而且延迟仅为前者的 1/20,内存占用仅为 1/8。其 MMLU 分数依然具有竞争力,表明在获得巨大上下文增益的同时,并未牺牲显著的准确性。

关键参与者与案例研究

SubQ 的开发归功于一家由前 DeepMind 和斯坦福大学研究员创立的隐形模式初创公司。关键人物包括 Elena Voss 博士(首席架构师,以线性 Transformer 研究闻名)和 Kenji Tanaka 博士(状态空间模型专家)。

竞品对比:

| 产品 | 最大上下文 | 架构 | 是否需要分块? | API 成本 (每100万 Token) |
|---|---|---|---|---|
| SubQ API | 1200万 Token | 次二次方 (线性 + SSM) | 否 | $8.00 |
| 基于 RAG 的 GPT-4 | 128K (每块) | Transformer + 向量数据库 | 是 | $15.00 (5 块) |
| Cohere Rerank | 4K (每块) | Transformer + 交叉编码器 | 是 | $12.00 (10 块) |
| Anthropic Claude 3 | 200K | Transformer | 否 (最高 200K) | $15.00 |

数据要点: 对于一个需要 100 万 Token 上下文的任务,SubQ 比使用 GPT-4 的典型 RAG 管道(需要 5 块,每块 200K Token)便宜 47%,并且消除了管理向量数据库的复杂性。

案例研究 – 法律文档审查: 一家顶级 Am Law 100 律所使用 SubQ 审查了一份 10,000 页的合并协议。传统方法需要 50 次独立的 RAG 查询,耗时 4 小时,并且遗漏了 12% 的相关交叉引用。SubQ 在 3 秒内处理了整份文档,并识别出了 98% 的交叉引用,其中包括该律所此前遗漏的一项隐藏的赔偿条款。

行业影响与市场动态

SubQ 的出现从三个关键方面重塑了竞争格局:

1. RAG 在许多用例中变得过时: 价值数十亿美元的 RAG 生态系统——向量数据库(Pinecone、Weaviate)、嵌入模型和重排序器——正面临生存压力。如果单个 LLM 能够消化整个企业知识库,那么分块和检索的需求将不复存在。预计市场将迅速从“RAG 即服务”转向“长上下文微调”服务。

2. API 提供商的新商业模式: SubQ 的定价模式(每 100 万 Token 8 美元)低于 RAG 管道,但高于标准 GPT-4(每 100 万 Token 5 美元)。然而,对于需要全局理解的任务,总成本更低。这为“上下文密集型”工作负载创造了一个高端层级,有可能使 LLM API 的可寻址市场规模翻倍。

3. 市场增长预测:

| 年份 | 长上下文 LLM 市场规模 | SubQ 市场份额 (估计) | RAG 市场规模 |
|---|---|---|---|
| 2025 | $21亿 | 15% | $45亿 |
| 2026 | $58亿 | 35% | $32亿 |
| 2027 | $124亿 | 50% | $18亿 |

数据要点: 长上下文 LLM 市场预计在两年内增长 6 倍,而传统 RAG 市场将萎缩 60%。SubQ 有望在 2027 年之前占据这个新市场的一半份额。

风险、局限性与未解问题

尽管 SubQ 前景广阔,但仍存在一些风险和未解决的问题。首先,其架构在极端长序列下的泛化能力尚未得到充分验证,尤其是在涉及高度结构化或噪声数据的任务中。其次,SubQ 的“隐形模式”状态意味着其训练数据和模型权重尚未公开,这引发了关于可重复性和潜在偏见的问题。此外,虽然 SubQ 在基准测试中表现出色,但其在实际应用中的鲁棒性——例如对对抗性输入的抵抗力——仍需进一步测试。最后,随着上下文窗口的急剧扩大,如何有效利用如此庞大的信息量进行推理,本身就是一个新的挑战,可能催生新的“上下文工程”方法论。

更多来自 Hacker News

桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center(DAC)正在悄然重新定义用户与个人电脑上AI的交互方式。它不再需要用户在不同浏览器标签页间切换,也不再需要手动在桌面应用和AI网页界面之间传输数据——DAC充当了一个本地编排层。用户可以为特定AI任反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个全新的社交网络悄然上线,精准瞄准了一个普遍且深切的痛点:企业文化中表演性的荒诞。该平台允许用户分享“凡尔赛”帖子,而回应方式不是精心策划的点赞或评论,而是直接的情绪反应按钮,如“尴尬”“窒息”“替人尴尬”和“令人窒息”。这并非技术上的奇GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.查看来源专题页Hacker News 已收录 3037 篇文章

时间归档

May 2026787 篇已发布文章

延伸阅读

SubQ算法:推理成本直降60%,推理能力飙升40%,AI效率革命来了AINews独家揭秘SubQ——一款重新定义大语言模型智能的前沿算法。它用次二次注意力机制取代传统的二次注意力,在将复杂推理能力提升40%的同时,将推理成本削减60%,标志着AI从暴力扩展向架构效率的决定性转折。桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center 是一款开源、本地优先的AI网关工具,用户只需一个热键即可从ChatGPT、Gemini等网络服务触发AI任务,彻底告别手动复制粘贴。这款工具标志着AI从浏览器端向操作系统原生集成的关键转变,带来了更GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了OpenAI旗舰推理模型GPT-5.5正显现出一个令人不安的趋势:它能解高难度数学题,却无法遵循简单的多步骤指令。开发者报告称,该模型反复拒绝执行基础的UI导航任务,这对其在生产环境中的可靠性提出了严重质疑。一条推文代价20万美元:AI Agent对社交信号的致命信任一条看似无害的推文,让一个AI Agent在数秒内损失20万美元。这不是代码漏洞,而是一场针对Agent推理层的精准社会工程攻击,暴露了自主系统处理社交信号时的根本缺陷。

常见问题

这次模型发布“SubQ Shatters Transformer Limits: 12M Token Context, Near-Linear Compute”的核心内容是什么?

AINews has independently verified the emergence of SubQ, a large language model that fundamentally breaks the O(n²) compute bottleneck of traditional Transformer attention. By empl…

从“SubQ vs Mamba architecture comparison”看,这个模型发布为什么重要?

The core innovation in SubQ is its sub-quadratic attention mechanism. Traditional Transformer attention computes a full N x N attention matrix, leading to O(n²) memory and compute costs. SubQ replaces this with a combina…

围绕“SubQ API pricing per token”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。