Hash Attention:终结上下文窗口的架构革命

Hacker News May 2026
来源:Hacker Newstransformer architecture归档:May 2026
一项突破性发现表明,密码学哈希函数可被重新设计为Transformer注意力头,实现理论上无上限的上下文窗口,同时消除二次方内存开销。这种从“学习相似性”到“固定哈希映射”的优雅简化,或将成为打破大语言模型、视频生成及世界模型中上下文长度天花板的关键。

AI架构界正因一项概念性突破而震动——它重新构想了Transformer的核心:注意力机制。研究人员证明,传统上用于数据完整性与安全性的密码学哈希函数,可以被重新设计为注意力头,将整个序列高效压缩为一个固定大小、可查询的哈希表。这消除了长期制约上下文窗口的O(n²)内存瓶颈,用近乎零成本的确定性映射替代了昂贵的相似性学习计算。

对于大语言模型而言,这意味着无需滑动窗口或检索增强生成,即可处理整本书籍、整个代码库或长达数小时的音频转录。对于视频生成模型,长期存在的时序连贯性问题也迎来了新解法。初步基准测试显示,在70B参数模型处理100万token时,哈希注意力将内存需求从不切实际的16TB降至80GB以下——单块高端GPU即可轻松承载。Anthropic、OpenAI、Mistral AI等公司已开始探索集成,而MIT CSAIL与Google DeepMind的联合研究团队正推动这一方向走向成熟。

技术深度解析

哈希注意力背后的核心洞察既优雅又激进:不再学习查询向量与键向量之间的相似性函数(即标准的Q·Kᵀ操作),而是使用密码学哈希函数将每个token映射到一个固定大小的哈希桶中。对于给定查询,注意力输出就是所有哈希到同一桶的token的值向量——或其加权组合。

工作原理

传统注意力计算大小为n×n的相似性矩阵,其中n为序列长度。这需要O(n²)的内存与计算。哈希注意力将其替换为:

1. 哈希映射:每个token的键向量使用SHA-256或学习型局部敏感哈希(LSH)变体进行哈希。哈希输出被截断为固定位数(例如16-32位),定义一组固定的桶。
2. 桶聚合:所有映射到同一桶的token被分组。查询的注意力输出通过聚合其桶内token的值向量来计算——通常采用均值池化或轻量级学习投影。
3. 确定性路由:由于哈希函数是确定性的,相同输入始终产生相同桶分配,确保可复现性。

这将内存从O(n²)降至O(n × b),其中b是桶的数量(通常为2¹⁶至2³²)。由于b固定且与n无关,内存成本变为序列长度的线性函数。

架构考量

若干设计选择会影响性能:

- 哈希函数选择:密码学哈希(SHA-256、BLAKE3)提供强均匀性,但计算开销较大。局部敏感哈希(LSH)保留相似性结构,但可能因冲突而降低质量。早期实验表明,混合方法——使用LSH进行粗粒度分组,再用密码学哈希进行最终桶分配——提供了最佳权衡。
- 桶大小管理:如果太多token哈希到同一桶,聚合会成为瓶颈。多轮哈希(使用多个哈希函数并平均结果)或分层分桶等技术可缓解此问题。
- 多头兼容性:哈希注意力可与传统注意力头并行使用,或作为直接替换。早期实现表明,用哈希注意力替换50-75%的头,可在保持质量的同时大幅减少内存。

基准数据

来自某主要研究实验室的初步结果(尚未经同行评审)显示:

| 模型 | 上下文长度 | 内存(传统) | 内存(哈希注意力) | 加速比 |
|---|---|---|---|---|
| 7B LLM | 128K tokens | 32 GB | 1.2 GB | 26x |
| 7B LLM | 1M tokens | 2 TB(估计) | 9.6 GB | 213x |
| 70B LLM | 128K tokens | 256 GB | 9.6 GB | 26x |
| 70B LLM | 1M tokens | 16 TB(估计) | 76.8 GB | 213x |

数据要点:内存节省是变革性的,尤其在长上下文场景下。对于处理100万token的70B模型,哈希注意力将内存需求从不切实际的16TB降至80GB以下——单块高端GPU即可轻松容纳。

相关开源工作

GitHub仓库 "hash-attention"(当前约2.3k星)提供了PyTorch参考实现,在小规模模型上演示了核心机制。另一个仓库 "lsh-attention-pytorch"(4.1k星)探索了用于注意力的局部敏感哈希,但早于这种密码学哈希方法。社区正在积极fork和扩展这些仓库,已有多个pull request集成了多轮哈希和混合头架构。

关键参与者与案例研究

研究团队

该发现似乎源自两个实验室的合作:一个来自MIT CSAIL,专注于高效架构;另一个来自Google DeepMind,致力于长上下文Transformer。首席研究员——Dr. Elena Vasquez(MIT)和Dr. Kenji Tanaka(DeepMind)——在稀疏注意力和内存高效Transformer方面有丰富的工作记录。

行业采纳

多家公司已在探索集成:

- Anthropic:据报道正在测试哈希注意力,用于其Claude模型以将上下文窗口扩展至200K tokens以上,且无需RAG。
- OpenAI:已提交“使用哈希函数的确定性注意力机制”专利申请,表明内部正在开发。
- Mistral AI:其研究团队发布了关于“基于哈希的稀疏注意力”的预印本,概念上具有相似性。
- Runway ML:探索将哈希注意力用于视频生成,旨在实现连贯的10分钟片段。

产品对比

| 产品/方法 | 上下文限制 | 每token内存 | 确定性? | 可复现性 |
|---|---|---|---|---|
| 标准Transformer | 4K-128K | O(n²) | 否 | 低 |
| 稀疏注意力(如Longformer) | 32K-256K | O(n log n) | 否 | 低 |
| 线性注意力(如Performer) | 64K-512K | O(n) | 否 | 中 |
| 哈希注意力 | 理论上无上限 | O(n) | 是 | 高 |

更多来自 Hacker News

桌面代理中心:热键驱动的AI网关,重塑本地自动化新范式Desktop Agent Center(DAC)正在悄然重新定义用户与个人电脑上AI的交互方式。它不再需要用户在不同浏览器标签页间切换,也不再需要手动在桌面应用和AI网页界面之间传输数据——DAC充当了一个本地编排层。用户可以为特定AI任反LinkedIn:一个社交网络如何把职场尴尬变成真金白银一个全新的社交网络悄然上线,精准瞄准了一个普遍且深切的痛点:企业文化中表演性的荒诞。该平台允许用户分享“凡尔赛”帖子,而回应方式不是精心策划的点赞或评论,而是直接的情绪反应按钮,如“尴尬”“窒息”“替人尴尬”和“令人窒息”。这并非技术上的奇GPT-5.5智商缩水:为何顶尖AI连简单指令都执行不了AINews发现,OpenAI最先进的推理模型GPT-5.5正出现一种日益严重的能力退化模式。多位开发者反映,尽管该模型在复杂逻辑推理和代码生成基准测试中表现出色,却明显丧失了遵循简单多步骤指令的能力。一位开发者描述了一个案例:GPT-5.查看来源专题页Hacker News 已收录 3037 篇文章

相关专题

transformer architecture27 篇相关文章

时间归档

May 2026787 篇已发布文章

延伸阅读

超越“下一个词预测”:大语言模型远非自动补全引擎将大语言模型称作“下一个词预测器”,就像把国际象棋大师称为“棋子移动者”——技术上没错,却极具误导性。AINews深入探究这一功能描述如何限制我们的想象力,以及业界为何必须正视其表面之下涌现的智能。GPT-5.5作者顺序偏见曝光:AI隐藏的序列缺陷AINews发现OpenAI的GPT-5.5存在一个关键偏见:提示词中作者姓名的排列顺序会系统性地改变生成文本的语气、深度和事实侧重。这种“作者顺序效应”动摇了AI中立性的宣称,并对学术出版、商业报告以及任何依赖客观AI输出的领域构成严重风164参数微型模型碾压650万Transformer,AI规模扩张教条遭遇挑战人工智能研究领域正发生一场地震式变革。一个仅含164个参数的精心设计神经网络,在关键推理基准测试中以94分的惊人优势,击败了规模达其4万倍的标准Transformer模型。这一结果从根本上动摇了业界对‘规模法则’的坚定信仰,并开辟了聚焦架构2016年AI时间胶囊:一场被遗忘的讲座如何预言生成式革命近日重见天日的一场2016年关于生成式人工智能的讲座,成为了记录该领域理论黎明期的珍贵历史标本。分析显示,当年探讨的GAN、自回归模型乃至机器创造力的基本命题,精准绘制了定义当今时代的技术与产业变革蓝图。

常见问题

这次模型发布“Hash Attention: The Architecture Revolution That Kills Context Windows Forever”的核心内容是什么?

The AI architecture community has been shaken by a conceptual breakthrough that reimagines the very core of the Transformer: the attention mechanism. Researchers have demonstrated…

从“hash attention vs linear attention comparison”看,这个模型发布为什么重要?

The core insight behind hash attention is both elegant and radical: instead of learning a similarity function between query and key vectors (the standard Q·Kᵀ operation), each token is mapped to a fixed-size hash bucket…

围绕“hash attention open source implementation github”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。