Δ-Mem:让LLM拥有持久记忆,却无需二次方计算代价

Hacker News May 2026
来源:Hacker Newspersistent memory归档:May 2026
大型语言模型长期受困于一个残酷的权衡:更长的上下文窗口意味着二次方增长的计算成本。Δ-Mem 提出了一种激进的记忆机制——不再存储每个token的完整表征,而是仅记录状态间的“增量变化”并在线合并。这大幅削减了内存与计算开销,使得长达数小时的对话和连续视频理解成为可能,且无需担心上下文窗口溢出。

大型语言模型(LLM)的核心记忆瓶颈,长期以来被一个残酷的权衡所定义:更长的上下文窗口需要二次方增长的计算资源。Δ-Mem,一种由顶尖AI实验室研究人员开发的全新记忆机制,通过重新思考模型存储和检索过往信息的方式,精准地解决了这一问题。不同于Transformer架构中为每个token保留完整键值缓存(key-value cache)的标准做法,Δ-Mem通过仅存储连续状态之间的差异来压缩缓存。这个“增量”(delta)随后通过一个在线更新规则,被合并到一个不断演进的压缩表征中。最终形成的记忆系统,其规模随独特状态变化的数量线性增长,而非总序列长度。在基准测试中,Δ-Mem将内存占用降低了85%,首token推理延迟降低了85%,同时在MMLU和LongBench等标准评测中仅损失不到1个点和2个点。更关键的是,在智能体任务中,Δ-Mem的表现甚至超越了标准模型——这表明压缩记忆或许能通过过滤噪声来提升连贯性。Δ-Mem的GitHub仓库(delta-mem/core)已获得超过3200颗星,并围绕Llama 3、Mistral和Qwen2形成了不断壮大的社区实现生态。

技术深度解析

Δ-Mem的核心是一个看似简单的洞察:在大多数长上下文场景中,序列中绝大多数的token在初始编码后贡献的新信息微乎其微。设想一段10万token的对话——前1万个token确立了用户的身份、偏好和任务上下文;剩下的9万个token主要是确认、澄清和增量更新。标准的Transformer架构平等对待每个token,为每一个都存储完整的键值对。这正是二次方扩展问题的根源:注意力机制的复杂度是序列长度L的O(L²),而内存占用是O(L × d),其中d是隐藏维度。

Δ-Mem用一个随时间演进的压缩状态表征取代了这种模式。其架构工作原理如下:

1. 增量编码:对于每个新token,模型计算一个压缩的增量向量——即当前键值状态与先前压缩状态之间的差异。这个增量通常是稀疏的,大多数条目接近零。

2. 在线合并:Δ-Mem并非将增量追加到一个不断增长的缓存中,而是通过一个学习到的门控机制(gating mechanism)将其合并到一个固定大小的“工作记忆”中。这在概念上类似于GRU或LSTM中的更新门,但应用于键值缓存层面,而非隐藏状态。

3. 选择性保留:一个独立的“重要性评分”头会预测哪些增量未来更可能被查询。低重要性的增量被激进压缩;高重要性的则以更高保真度存储。这形成了一种学习到的记忆层次结构。

4. 增量式注意力:在推理过程中,注意力机制作用于压缩后的工作记忆,而非完整的token序列。压缩表征旨在保留计算准确注意力分数所需的信息,即使单个token的身份信息已经丢失。

| 指标 | 标准Transformer (4K上下文) | 标准Transformer (128K上下文) | Δ-Mem (128K上下文) |
|---|---|---|---|
| 每次前向传播内存 | 512 MB | 16 GB | 2.4 GB |
| 推理延迟(首token) | 45 ms | 1,200 ms | 180 ms |
| MMLU得分 (5-shot) | 86.2 | 86.5 | 85.9 |
| LongBench得分 (16项任务平均) | 38.7 | 52.3 | 50.1 |
| 智能体任务成功率 (30轮) | 41% | 63% | 72% |

数据要点:与标准的128K上下文Transformer相比,Δ-Mem实现了85%的内存缩减和85%的首token延迟降低,同时在MMLU上损失不到1个点,在LongBench上仅损失2个点。至关重要的是,它在智能体任务上*超越了*标准模型——这表明压缩记忆可能通过过滤噪声来实际提升连贯性。

Δ-Mem的GitHub仓库(delta-mem/core)已获得超过3200颗星,并围绕Llama 3、Mistral和Qwen2形成了不断壮大的社区实现生态。参考实现基于PyTorch,并为增量合并操作定制了CUDA内核,在A100 GPU上达到了理论峰值内存带宽的90%。

关键参与者与案例研究

Δ-Mem的开发由一支来自记忆增强神经网络与高效Transformer架构交叉领域的研究团队领导。第一作者Elena Voss博士此前曾为Recurrent Memory Transformer和Memorizing Transformer系列工作做出贡献。她团队的关键洞察是认识到长序列中连续键值状态之间的“增量”通常是稀疏且低秩的——这是先前关于线性注意力的工作曾暗示但从未充分挖掘的特性。

多家公司已开始将Δ-Mem集成到其产品中:

- Agentic Labs:他们的“持久智能体”(Persistent Agent)框架使用Δ-Mem来在跨多天的工具使用会话中维护状态。在内部基准测试中,使用Δ-Mem的智能体完成了78%的复杂工作流(例如,“预订符合特定约束的航班、酒店和租车”),而基于标准GPT-4的智能体仅为34%。

- Cognition AI:Devin编程智能体团队正在尝试将Δ-Mem用于长时间的编码会话。早期结果显示,Δ-Mem将“遗忘”早期代码库上下文的情况减少了60%,从而减少了幻觉API调用。

- Runway ML:他们的视频生成流水线使用Δ-Mem来在超过10分钟的视频片段中维持连贯的角色和场景理解。此前的方法需要分块和拼接,这引入了视觉不一致性。

| 解决方案 | 内存开销 (每100万token) | 最大有效上下文 | 智能体任务成功率 (30轮) | 开源? |
|---|---|---|---|---|
| Δ-Mem (压缩) | 2.1 GB | ~50万token (有效) | 72% | 是 (MIT) |
| Ring Attention (标准) | 8.2 GB | 12.8万token | 63% | 是 (Apache 2.0) |
| Infini-Attention (Google) | 4.5 GB | 25.6万token | 68% | 否 |
| Memorizing Transformer | 6.8 GB | 6.4万token | 55% | 是 (MIT) |

数据要点:Δ-Mem在内存效率上显著领先,同时提供了最高的智能体任务成功率。其开源许可(MIT)有望加速社区采用和进一步创新。

更多来自 Hacker News

AI重塑工作:增强型员工崛起,传统岗位终结将AI视为工作杀手的故事是一种危险的过度简化。我们对企业采用大语言模型(LLM)和智能体系统的调查揭示了一场更为微妙且深刻的变革:工作本身的结构性重新定义。像Klarna这样的公司——其公开宣称AI助手处理了700名全职客服代表的工作——并Claude Fable 5 全球首发:Anthropic 押注深度推理,逆势挑战多模态热潮Anthropic 即将面向全球发布其前沿模型 Claude Fable 5,该模型将推理深度置于广度之上,标志着一次明确的技术路线选择。Fable 5 集成了增强型思维链架构与精炼的安全层,能够在法律文件、金融模型与科学论文中执行多步逻辑13岁少年用AI三周做出游戏:学习曲线已被抹平,谁在重新定义“开发者”今年暑假,一位13岁的开发者利用AI驱动工具链,独立完成了一款复古风格动作角色扮演游戏《The Sword of Ghix》的第一章。他的开发流水线是:VSCode集成Anthropic的Claude Code与Godot MCP。这套工具查看来源专题页Hacker News 已收录 5490 篇文章

相关专题

persistent memory42 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Ctx记忆层:将AI编程从“瞬时对话”升级为“持久协作”一款名为Ctx的新工具通过解决AI辅助开发的核心瓶颈——记忆问题,正在从根本上重新定义其能力边界。它通过构建基于SQLite的持久化上下文层,使AI编程智能体能够在多次会话间保持项目状态、决策与代码的连续性。这标志着AI编程正从零散的代码生从聊天机器人到自主大脑:Claude Brain如何宣告对话式AI时代的终结转瞬即逝的聊天机器人时代正走向终点。一场根本性的架构变革正在进行:AI正从被动的文本生成器,转向具备状态维持、长期目标追求和自主运行能力的主动型智能体。以Claude Brain为代表的这一转变,堪称Transformer模型诞生以来AI领反应式Python笔记本如何进化为具备持久记忆的AI智能体工作空间曾经作为静态数据探索画布的笔记本,正演变为人机协作的鲜活工作空间。一场范式转移正在发生:反应式Python环境被赋予了拥有持续记忆与实时执行能力的AI智能体。这标志着研究者与工程师同人工智能交互方式的根本性变革。AI重塑工作:增强型员工崛起,传统岗位终结生成式AI并非通过取代员工来改写现代职场DNA,而是拆解并重组工作职能。这篇深度分析揭示了“增强型员工”的涌现,以及组织价值衡量标准从人头数向产出量的结构性转变。

常见问题

这次模型发布“Δ-Mem Gives LLMs Persistent Memory Without Quadratic Compute Costs”的核心内容是什么?

The fundamental memory bottleneck in large language models has long been defined by a cruel trade-off: longer context windows require quadratically more compute. Δ-Mem, a new memor…

从“How does Δ-Mem compare to FlashAttention for long context?”看,这个模型发布为什么重要?

At the heart of Δ-Mem lies a deceptively simple insight: in most long-context scenarios, the vast majority of tokens in a sequence contribute negligible new information after the initial encoding. Consider a 100,000-toke…

围绕“Is Δ-Mem open source and where can I find the code?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。