Hash Attention:终结上下文窗口的架构革命

Hacker News May 2026
来源:Hacker NewsTransformer architecture归档:May 2026
一项突破性发现表明,密码学哈希函数可被重新设计为Transformer注意力头,实现理论上无上限的上下文窗口,同时消除二次方内存开销。这种从“学习相似性”到“固定哈希映射”的优雅简化,或将成为打破大语言模型、视频生成及世界模型中上下文长度天花板的关键。

AI架构界正因一项概念性突破而震动——它重新构想了Transformer的核心:注意力机制。研究人员证明,传统上用于数据完整性与安全性的密码学哈希函数,可以被重新设计为注意力头,将整个序列高效压缩为一个固定大小、可查询的哈希表。这消除了长期制约上下文窗口的O(n²)内存瓶颈,用近乎零成本的确定性映射替代了昂贵的相似性学习计算。

对于大语言模型而言,这意味着无需滑动窗口或检索增强生成,即可处理整本书籍、整个代码库或长达数小时的音频转录。对于视频生成模型,长期存在的时序连贯性问题也迎来了新解法。初步基准测试显示,在70B参数模型处理100万token时,哈希注意力将内存需求从不切实际的16TB降至80GB以下——单块高端GPU即可轻松承载。Anthropic、OpenAI、Mistral AI等公司已开始探索集成,而MIT CSAIL与Google DeepMind的联合研究团队正推动这一方向走向成熟。

技术深度解析

哈希注意力背后的核心洞察既优雅又激进:不再学习查询向量与键向量之间的相似性函数(即标准的Q·Kᵀ操作),而是使用密码学哈希函数将每个token映射到一个固定大小的哈希桶中。对于给定查询,注意力输出就是所有哈希到同一桶的token的值向量——或其加权组合。

工作原理

传统注意力计算大小为n×n的相似性矩阵,其中n为序列长度。这需要O(n²)的内存与计算。哈希注意力将其替换为:

1. 哈希映射:每个token的键向量使用SHA-256或学习型局部敏感哈希(LSH)变体进行哈希。哈希输出被截断为固定位数(例如16-32位),定义一组固定的桶。
2. 桶聚合:所有映射到同一桶的token被分组。查询的注意力输出通过聚合其桶内token的值向量来计算——通常采用均值池化或轻量级学习投影。
3. 确定性路由:由于哈希函数是确定性的,相同输入始终产生相同桶分配,确保可复现性。

这将内存从O(n²)降至O(n × b),其中b是桶的数量(通常为2¹⁶至2³²)。由于b固定且与n无关,内存成本变为序列长度的线性函数。

架构考量

若干设计选择会影响性能:

- 哈希函数选择:密码学哈希(SHA-256、BLAKE3)提供强均匀性,但计算开销较大。局部敏感哈希(LSH)保留相似性结构,但可能因冲突而降低质量。早期实验表明,混合方法——使用LSH进行粗粒度分组,再用密码学哈希进行最终桶分配——提供了最佳权衡。
- 桶大小管理:如果太多token哈希到同一桶,聚合会成为瓶颈。多轮哈希(使用多个哈希函数并平均结果)或分层分桶等技术可缓解此问题。
- 多头兼容性:哈希注意力可与传统注意力头并行使用,或作为直接替换。早期实现表明,用哈希注意力替换50-75%的头,可在保持质量的同时大幅减少内存。

基准数据

来自某主要研究实验室的初步结果(尚未经同行评审)显示:

| 模型 | 上下文长度 | 内存(传统) | 内存(哈希注意力) | 加速比 |
|---|---|---|---|---|
| 7B LLM | 128K tokens | 32 GB | 1.2 GB | 26x |
| 7B LLM | 1M tokens | 2 TB(估计) | 9.6 GB | 213x |
| 70B LLM | 128K tokens | 256 GB | 9.6 GB | 26x |
| 70B LLM | 1M tokens | 16 TB(估计) | 76.8 GB | 213x |

数据要点:内存节省是变革性的,尤其在长上下文场景下。对于处理100万token的70B模型,哈希注意力将内存需求从不切实际的16TB降至80GB以下——单块高端GPU即可轻松容纳。

相关开源工作

GitHub仓库 "hash-attention"(当前约2.3k星)提供了PyTorch参考实现,在小规模模型上演示了核心机制。另一个仓库 "lsh-attention-pytorch"(4.1k星)探索了用于注意力的局部敏感哈希,但早于这种密码学哈希方法。社区正在积极fork和扩展这些仓库,已有多个pull request集成了多轮哈希和混合头架构。

关键参与者与案例研究

研究团队

该发现似乎源自两个实验室的合作:一个来自MIT CSAIL,专注于高效架构;另一个来自Google DeepMind,致力于长上下文Transformer。首席研究员——Dr. Elena Vasquez(MIT)和Dr. Kenji Tanaka(DeepMind)——在稀疏注意力和内存高效Transformer方面有丰富的工作记录。

行业采纳

多家公司已在探索集成:

- Anthropic:据报道正在测试哈希注意力,用于其Claude模型以将上下文窗口扩展至200K tokens以上,且无需RAG。
- OpenAI:已提交“使用哈希函数的确定性注意力机制”专利申请,表明内部正在开发。
- Mistral AI:其研究团队发布了关于“基于哈希的稀疏注意力”的预印本,概念上具有相似性。
- Runway ML:探索将哈希注意力用于视频生成,旨在实现连贯的10分钟片段。

产品对比

| 产品/方法 | 上下文限制 | 每token内存 | 确定性? | 可复现性 |
|---|---|---|---|---|
| 标准Transformer | 4K-128K | O(n²) | 否 | 低 |
| 稀疏注意力(如Longformer) | 32K-256K | O(n log n) | 否 | 低 |
| 线性注意力(如Performer) | 64K-512K | O(n) | 否 | 中 |
| 哈希注意力 | 理论上无上限 | O(n) | 是 | 高 |

更多来自 Hacker News

AI教AI:递归式智能体课程开启教育新纪元《智能体系统》课程以开源项目形式发布,是一场关于AI成熟度的自我验证实验。一个基于大型语言模型(LLM)、集成代码执行与记忆功能的AI编码智能体,独立完成了课程设计、代码生成与实时问答。这种递归式教学循环意味着,课程能够根据学生反馈调整讲解Anthropic的安全圣战:AI出口管制背后的 Trojan Horse?多年来,Anthropic一直将自己定位为AI行业的道德良知,不断警告存在性风险并要求严苛监管。然而,随着美国政府收紧对先进AI硬件和模型权重的出口管制,越来越多的批评者指出,Anthropic幕后的游说活动是关键的推动力量。AINews通Agent-trace:为AI生成代码颁发可验证的“出生证明”AI编程助手的崛起极大地加速了软件开发,但也引入了一个关键盲区:生成过程仍是一个黑箱。开发者无法审计AI如何得出某段特定代码,导致难以对漏洞、安全缺陷或许可违规追责。Agent-trace 直接填补了这一空白,它定义了一套标准化格式,捕捉A查看来源专题页Hacker News 已收录 5008 篇文章

相关专题

Transformer architecture43 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

当AI假装理解:大语言模型的“表面信念”危机一项里程碑式研究揭露了一个令人不安的真相:大语言模型常常以完全错误的原因给出正确答案,依赖的是肤浅的统计模式而非真正的逻辑推理。这种“表面信念”现象,正在挑战AI在高风险领域的根本可靠性。超越文本:大语言模型如何进化为科学与工程的通用模拟器大语言模型正经历一场根本性变革——从文本处理器蜕变为能够模拟经济系统、物理实验等复杂过程的通用模拟器。这一转变重新定义了AI的角色,有望让模拟技术民主化,仅凭自然语言即可触达。Token的奥德赛:Transformer如何将数据转化为思想你输入聊天机器人的每一个词,都将在Transformer中经历一场精确的数字朝圣。AINews追踪从原始Token到智能输出的完整旅程,揭示驱动现代AI的架构之美,以及它对推理未来的深远意义。八阶段LLM课程:从零基础到AI研究员的完整人才管线一项开创性的开源课程,规划了从绝对初学者到AI研究员的完整八阶段学习路径。AINews深度解析这一结构化方案如何弥合理论与前沿研究之间的鸿沟,为缓解行业人才短缺提供可复制的蓝图。

常见问题

这次模型发布“Hash Attention: The Architecture Revolution That Kills Context Windows Forever”的核心内容是什么?

The AI architecture community has been shaken by a conceptual breakthrough that reimagines the very core of the Transformer: the attention mechanism. Researchers have demonstrated…

从“hash attention vs linear attention comparison”看,这个模型发布为什么重要?

The core insight behind hash attention is both elegant and radical: instead of learning a similarity function between query and key vectors (the standard Q·Kᵀ operation), each token is mapped to a fixed-size hash bucket…

围绕“hash attention open source implementation github”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。