Δ-Mem：让LLM拥有持久记忆，却无需二次方计算代价

2026年5月16日 18:32 AINews Hacker News May 2026

来源：Hacker News persistent memory 归档：May 2026

大型语言模型长期受困于一个残酷的权衡：更长的上下文窗口意味着二次方增长的计算成本。Δ-Mem 提出了一种激进的记忆机制——不再存储每个token的完整表征，而是仅记录状态间的“增量变化”并在线合并。这大幅削减了内存与计算开销，使得长达数小时的对话和连续视频理解成为可能，且无需担心上下文窗口溢出。

大型语言模型（LLM）的核心记忆瓶颈，长期以来被一个残酷的权衡所定义：更长的上下文窗口需要二次方增长的计算资源。Δ-Mem，一种由顶尖AI实验室研究人员开发的全新记忆机制，通过重新思考模型存储和检索过往信息的方式，精准地解决了这一问题。不同于Transformer架构中为每个token保留完整键值缓存（key-value cache）的标准做法，Δ-Mem通过仅存储连续状态之间的差异来压缩缓存。这个“增量”（delta）随后通过一个在线更新规则，被合并到一个不断演进的压缩表征中。最终形成的记忆系统，其规模随独特状态变化的数量线性增长，而非总序列长度。在基准测试中，Δ-Mem将内存占用降低了85%，首token推理延迟降低了85%，同时在MMLU和LongBench等标准评测中仅损失不到1个点和2个点。更关键的是，在智能体任务中，Δ-Mem的表现甚至超越了标准模型——这表明压缩记忆或许能通过过滤噪声来提升连贯性。Δ-Mem的GitHub仓库（delta-mem/core）已获得超过3200颗星，并围绕Llama 3、Mistral和Qwen2形成了不断壮大的社区实现生态。

技术深度解析

Δ-Mem的核心是一个看似简单的洞察：在大多数长上下文场景中，序列中绝大多数的token在初始编码后贡献的新信息微乎其微。设想一段10万token的对话——前1万个token确立了用户的身份、偏好和任务上下文；剩下的9万个token主要是确认、澄清和增量更新。标准的Transformer架构平等对待每个token，为每一个都存储完整的键值对。这正是二次方扩展问题的根源：注意力机制的复杂度是序列长度L的O(L²)，而内存占用是O(L × d)，其中d是隐藏维度。

Δ-Mem用一个随时间演进的压缩状态表征取代了这种模式。其架构工作原理如下：

1. 增量编码：对于每个新token，模型计算一个压缩的增量向量——即当前键值状态与先前压缩状态之间的差异。这个增量通常是稀疏的，大多数条目接近零。

2. 在线合并：Δ-Mem并非将增量追加到一个不断增长的缓存中，而是通过一个学习到的门控机制（gating mechanism）将其合并到一个固定大小的“工作记忆”中。这在概念上类似于GRU或LSTM中的更新门，但应用于键值缓存层面，而非隐藏状态。

3. 选择性保留：一个独立的“重要性评分”头会预测哪些增量未来更可能被查询。低重要性的增量被激进压缩；高重要性的则以更高保真度存储。这形成了一种学习到的记忆层次结构。

4. 增量式注意力：在推理过程中，注意力机制作用于压缩后的工作记忆，而非完整的token序列。压缩表征旨在保留计算准确注意力分数所需的信息，即使单个token的身份信息已经丢失。

| 指标 | 标准Transformer (4K上下文) | 标准Transformer (128K上下文) | Δ-Mem (128K上下文) |
|---|---|---|---|
| 每次前向传播内存 | 512 MB | 16 GB | 2.4 GB |
| 推理延迟（首token） | 45 ms | 1,200 ms | 180 ms |
| MMLU得分 (5-shot) | 86.2 | 86.5 | 85.9 |
| LongBench得分 (16项任务平均) | 38.7 | 52.3 | 50.1 |
| 智能体任务成功率 (30轮) | 41% | 63% | 72% |

数据要点：与标准的128K上下文Transformer相比，Δ-Mem实现了85%的内存缩减和85%的首token延迟降低，同时在MMLU上损失不到1个点，在LongBench上仅损失2个点。至关重要的是，它在智能体任务上*超越了*标准模型——这表明压缩记忆可能通过过滤噪声来实际提升连贯性。

Δ-Mem的GitHub仓库（delta-mem/core）已获得超过3200颗星，并围绕Llama 3、Mistral和Qwen2形成了不断壮大的社区实现生态。参考实现基于PyTorch，并为增量合并操作定制了CUDA内核，在A100 GPU上达到了理论峰值内存带宽的90%。

关键参与者与案例研究

Δ-Mem的开发由一支来自记忆增强神经网络与高效Transformer架构交叉领域的研究团队领导。第一作者Elena Voss博士此前曾为Recurrent Memory Transformer和Memorizing Transformer系列工作做出贡献。她团队的关键洞察是认识到长序列中连续键值状态之间的“增量”通常是稀疏且低秩的——这是先前关于线性注意力的工作曾暗示但从未充分挖掘的特性。

多家公司已开始将Δ-Mem集成到其产品中：

- Agentic Labs：他们的“持久智能体”（Persistent Agent）框架使用Δ-Mem来在跨多天的工具使用会话中维护状态。在内部基准测试中，使用Δ-Mem的智能体完成了78%的复杂工作流（例如，“预订符合特定约束的航班、酒店和租车”），而基于标准GPT-4的智能体仅为34%。

- Cognition AI：Devin编程智能体团队正在尝试将Δ-Mem用于长时间的编码会话。早期结果显示，Δ-Mem将“遗忘”早期代码库上下文的情况减少了60%，从而减少了幻觉API调用。

- Runway ML：他们的视频生成流水线使用Δ-Mem来在超过10分钟的视频片段中维持连贯的角色和场景理解。此前的方法需要分块和拼接，这引入了视觉不一致性。

| 解决方案 | 内存开销 (每100万token) | 最大有效上下文 | 智能体任务成功率 (30轮) | 开源? |
|---|---|---|---|---|
| Δ-Mem (压缩) | 2.1 GB | ~50万token (有效) | 72% | 是 (MIT) |
| Ring Attention (标准) | 8.2 GB | 12.8万token | 63% | 是 (Apache 2.0) |
| Infini-Attention (Google) | 4.5 GB | 25.6万token | 68% | 否 |
| Memorizing Transformer | 6.8 GB | 6.4万token | 55% | 是 (MIT) |

数据要点：Δ-Mem在内存效率上显著领先，同时提供了最高的智能体任务成功率。其开源许可（MIT）有望加速社区采用和进一步创新。

时间归档

常见问题

这次模型发布“Δ-Mem Gives LLMs Persistent Memory Without Quadratic Compute Costs”的核心内容是什么？

The fundamental memory bottleneck in large language models has long been defined by a cruel trade-off: longer context windows require quadratically more compute. Δ-Mem, a new memor…

从“How does Δ-Mem compare to FlashAttention for long context?”看，这个模型发布为什么重要？

At the heart of Δ-Mem lies a deceptively simple insight: in most long-context scenarios, the vast majority of tokens in a sequence contribute negligible new information after the initial encoding. Consider a 100,000-toke…

围绕“Is Δ-Mem open source and where can I find the code?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Δ-Mem：让LLM拥有持久记忆，却无需二次方计算代价

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题