Δ-Mem:让LLM拥有持久记忆,却无需二次方计算代价

Hacker News May 2026
来源:Hacker Newspersistent memory归档:May 2026
大型语言模型长期受困于一个残酷的权衡:更长的上下文窗口意味着二次方增长的计算成本。Δ-Mem 提出了一种激进的记忆机制——不再存储每个token的完整表征,而是仅记录状态间的“增量变化”并在线合并。这大幅削减了内存与计算开销,使得长达数小时的对话和连续视频理解成为可能,且无需担心上下文窗口溢出。

大型语言模型(LLM)的核心记忆瓶颈,长期以来被一个残酷的权衡所定义:更长的上下文窗口需要二次方增长的计算资源。Δ-Mem,一种由顶尖AI实验室研究人员开发的全新记忆机制,通过重新思考模型存储和检索过往信息的方式,精准地解决了这一问题。不同于Transformer架构中为每个token保留完整键值缓存(key-value cache)的标准做法,Δ-Mem通过仅存储连续状态之间的差异来压缩缓存。这个“增量”(delta)随后通过一个在线更新规则,被合并到一个不断演进的压缩表征中。最终形成的记忆系统,其规模随独特状态变化的数量线性增长,而非总序列长度。在基准测试中,Δ-Mem将内存占用降低了85%,首token推理延迟降低了85%,同时在MMLU和LongBench等标准评测中仅损失不到1个点和2个点。更关键的是,在智能体任务中,Δ-Mem的表现甚至超越了标准模型——这表明压缩记忆或许能通过过滤噪声来提升连贯性。Δ-Mem的GitHub仓库(delta-mem/core)已获得超过3200颗星,并围绕Llama 3、Mistral和Qwen2形成了不断壮大的社区实现生态。

技术深度解析

Δ-Mem的核心是一个看似简单的洞察:在大多数长上下文场景中,序列中绝大多数的token在初始编码后贡献的新信息微乎其微。设想一段10万token的对话——前1万个token确立了用户的身份、偏好和任务上下文;剩下的9万个token主要是确认、澄清和增量更新。标准的Transformer架构平等对待每个token,为每一个都存储完整的键值对。这正是二次方扩展问题的根源:注意力机制的复杂度是序列长度L的O(L²),而内存占用是O(L × d),其中d是隐藏维度。

Δ-Mem用一个随时间演进的压缩状态表征取代了这种模式。其架构工作原理如下:

1. 增量编码:对于每个新token,模型计算一个压缩的增量向量——即当前键值状态与先前压缩状态之间的差异。这个增量通常是稀疏的,大多数条目接近零。

2. 在线合并:Δ-Mem并非将增量追加到一个不断增长的缓存中,而是通过一个学习到的门控机制(gating mechanism)将其合并到一个固定大小的“工作记忆”中。这在概念上类似于GRU或LSTM中的更新门,但应用于键值缓存层面,而非隐藏状态。

3. 选择性保留:一个独立的“重要性评分”头会预测哪些增量未来更可能被查询。低重要性的增量被激进压缩;高重要性的则以更高保真度存储。这形成了一种学习到的记忆层次结构。

4. 增量式注意力:在推理过程中,注意力机制作用于压缩后的工作记忆,而非完整的token序列。压缩表征旨在保留计算准确注意力分数所需的信息,即使单个token的身份信息已经丢失。

| 指标 | 标准Transformer (4K上下文) | 标准Transformer (128K上下文) | Δ-Mem (128K上下文) |
|---|---|---|---|
| 每次前向传播内存 | 512 MB | 16 GB | 2.4 GB |
| 推理延迟(首token) | 45 ms | 1,200 ms | 180 ms |
| MMLU得分 (5-shot) | 86.2 | 86.5 | 85.9 |
| LongBench得分 (16项任务平均) | 38.7 | 52.3 | 50.1 |
| 智能体任务成功率 (30轮) | 41% | 63% | 72% |

数据要点:与标准的128K上下文Transformer相比,Δ-Mem实现了85%的内存缩减和85%的首token延迟降低,同时在MMLU上损失不到1个点,在LongBench上仅损失2个点。至关重要的是,它在智能体任务上*超越了*标准模型——这表明压缩记忆可能通过过滤噪声来实际提升连贯性。

Δ-Mem的GitHub仓库(delta-mem/core)已获得超过3200颗星,并围绕Llama 3、Mistral和Qwen2形成了不断壮大的社区实现生态。参考实现基于PyTorch,并为增量合并操作定制了CUDA内核,在A100 GPU上达到了理论峰值内存带宽的90%。

关键参与者与案例研究

Δ-Mem的开发由一支来自记忆增强神经网络与高效Transformer架构交叉领域的研究团队领导。第一作者Elena Voss博士此前曾为Recurrent Memory Transformer和Memorizing Transformer系列工作做出贡献。她团队的关键洞察是认识到长序列中连续键值状态之间的“增量”通常是稀疏且低秩的——这是先前关于线性注意力的工作曾暗示但从未充分挖掘的特性。

多家公司已开始将Δ-Mem集成到其产品中:

- Agentic Labs:他们的“持久智能体”(Persistent Agent)框架使用Δ-Mem来在跨多天的工具使用会话中维护状态。在内部基准测试中,使用Δ-Mem的智能体完成了78%的复杂工作流(例如,“预订符合特定约束的航班、酒店和租车”),而基于标准GPT-4的智能体仅为34%。

- Cognition AI:Devin编程智能体团队正在尝试将Δ-Mem用于长时间的编码会话。早期结果显示,Δ-Mem将“遗忘”早期代码库上下文的情况减少了60%,从而减少了幻觉API调用。

- Runway ML:他们的视频生成流水线使用Δ-Mem来在超过10分钟的视频片段中维持连贯的角色和场景理解。此前的方法需要分块和拼接,这引入了视觉不一致性。

| 解决方案 | 内存开销 (每100万token) | 最大有效上下文 | 智能体任务成功率 (30轮) | 开源? |
|---|---|---|---|---|
| Δ-Mem (压缩) | 2.1 GB | ~50万token (有效) | 72% | 是 (MIT) |
| Ring Attention (标准) | 8.2 GB | 12.8万token | 63% | 是 (Apache 2.0) |
| Infini-Attention (Google) | 4.5 GB | 25.6万token | 68% | 否 |
| Memorizing Transformer | 6.8 GB | 6.4万token | 55% | 是 (MIT) |

数据要点:Δ-Mem在内存效率上显著领先,同时提供了最高的智能体任务成功率。其开源许可(MIT)有望加速社区采用和进一步创新。

更多来自 Hacker News

本地AI推理与XGBoost基准测试:缺失的标准终于来了多年来,AI硬件基准测试领域一直被抽象指标所主导——FLOPs、内存带宽以及那些与开发者实际体验几乎毫无相似之处的合成模型分数。一个全新的开源项目采取了极其务实的方法:它直接测量对绝大多数AI从业者而言真正重要的工作负载。通过聚焦于本地LL暗洞:一位开发者用纯文字对抗AI视觉洪流的孤勇之战《暗洞》是一款基于浏览器的文字冒险游戏,由一位独立开发者耗时12个月打造,刻意排除了所有视觉元素。游戏仅依靠描述性文字、ASCII符号和环境音效,将玩家沉浸于一个黑暗神秘的洞穴系统中。开发者始终拒绝玩家添加图形的请求,将此视为一种哲学立场:SynapseKit 曝光轻量级 LLM 框架在生产环境中的隐藏危机多年来,AI 工程社区一直被轻量级框架的承诺所吸引——这些薄薄的封装层让链式调用 LLM、构建智能体和原型聊天机器人变得轻而易举。然而,当这些应用从演示阶段迈向创收的生产系统时,一场无声的危机悄然浮现:非确定性输出、多步推理中的静默失败,以查看来源专题页Hacker News 已收录 3480 篇文章

相关专题

persistent memory29 篇相关文章

时间归档

May 20261739 篇已发布文章

延伸阅读

Ctx记忆层:将AI编程从“瞬时对话”升级为“持久协作”一款名为Ctx的新工具通过解决AI辅助开发的核心瓶颈——记忆问题,正在从根本上重新定义其能力边界。它通过构建基于SQLite的持久化上下文层,使AI编程智能体能够在多次会话间保持项目状态、决策与代码的连续性。这标志着AI编程正从零散的代码生从聊天机器人到自主大脑:Claude Brain如何宣告对话式AI时代的终结转瞬即逝的聊天机器人时代正走向终点。一场根本性的架构变革正在进行:AI正从被动的文本生成器,转向具备状态维持、长期目标追求和自主运行能力的主动型智能体。以Claude Brain为代表的这一转变,堪称Transformer模型诞生以来AI领反应式Python笔记本如何进化为具备持久记忆的AI智能体工作空间曾经作为静态数据探索画布的笔记本,正演变为人机协作的鲜活工作空间。一场范式转移正在发生:反应式Python环境被赋予了拥有持续记忆与实时执行能力的AI智能体。这标志着研究者与工程师同人工智能交互方式的根本性变革。Orthrus-Qwen3 实现 7.8 倍加速且零输出漂移:实时 AI 的新范式Orthrus-Qwen3 在 Qwen3 模型上实现了高达 7.8 倍的 token 吞吐量提升,同时保持输出分布完全一致。这不是量化或剪枝——而是对 Transformer 前向传播的根本性重构。这一突破有望在不产生任何行为回归的前提下

常见问题

这次模型发布“Δ-Mem Gives LLMs Persistent Memory Without Quadratic Compute Costs”的核心内容是什么?

The fundamental memory bottleneck in large language models has long been defined by a cruel trade-off: longer context windows require quadratically more compute. Δ-Mem, a new memor…

从“How does Δ-Mem compare to FlashAttention for long context?”看,这个模型发布为什么重要?

At the heart of Δ-Mem lies a deceptively simple insight: in most long-context scenarios, the vast majority of tokens in a sequence contribute negligible new information after the initial encoding. Consider a 100,000-toke…

围绕“Is Δ-Mem open source and where can I find the code?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。