持久记忆解锁LLM连续潜在推理，突破“概念瓶颈”开启高效无界推理新时代

2026年6月9日 12:07 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI persistent memory 归档：June 2026

一种全新的持久记忆机制让大语言模型能够在潜在空间中进行连续推理，彻底绕开了每层重置残差流的“概念瓶颈”。这一突破大幅削减计算开销，并深化了多跳推理能力，预示着高效、无界推理的新纪元即将到来。

AINews报道了大语言模型架构的一项关键演进：引入跨token维度的持久记忆机制，以克服潜在空间推理中的“概念瓶颈”。当前如CoCoNuT等范式虽能在潜在空间中并行探索推理路径，但每层都会重置残差流，丢弃中间推理概念——这就像每完成一步就擦掉草稿纸。而新方法将持久记忆从层级扩展至token级别，使模型无需生成显式中间token即可维持连续推理状态。其结果是大幅降低计算开销，同时增强多跳规划、代码生成等复杂任务的深度。在产品创新层面，这一机制有望彻底改变AI推理效率，为实时应用和边缘部署打开新大门。

技术深度解析

核心创新直指当前潜在空间推理架构的根本缺陷。像CoCoNuT（连续概念分词）这样的模型允许LLM在压缩潜在空间中并行探索多条推理路径，但它们受困于“概念瓶颈”：残差流——模型的工作记忆——在每层转换时被重置。这迫使模型丢弃中间推理概念，好比一位数学家每步都擦掉草稿纸，从而丢失了思维链。

持久记忆架构

提出的解决方案引入了一个跨token维度（而非仅跨层）运作的持久记忆模块。模型不再重置残差流，而是维护一个连续的潜在状态向量，该向量跨token累积并传播推理概念。这是通过一种类似LSTM但应用于潜在表示层面的门控循环机制实现的。持久记忆包含三个关键组件：
- 状态缓冲区：一个固定大小的向量，用于存储累积的推理上下文，通过学习的门控进行更新。
- 跨token注意力：允许模型跨token关注自身的持久状态，无需显式生成token即可实现长程依赖。
- 潜在压缩：降低维度以最小化内存占用，同时保留语义丰富性。

工程实现

在GitHub上，开源仓库latent-persistent-memory（近期已超过2,300颗星）提供了基于PyTorch的参考实现。它通过在每个注意力层后插入一个持久记忆块来修改标准Transformer解码器。该块使用一个学习的线性投影来更新状态缓冲区，然后将其与残差流拼接。早期基准测试显示，与CoCoNuT相比，多跳推理任务的FLOPs减少了40%，同时保持或提升了准确率。

性能基准

| 模型 | 多跳问答准确率 (HotpotQA) | 代码生成 Pass@10 (HumanEval) | 每token延迟 (ms) | 计算成本 (相对值) |
|---|---|---|---|---|
| GPT-4o (基线) | 82.3% | 87.1% | 12.5 | 1.0x |
| CoCoNuT (潜在) | 78.9% | 84.5% | 9.8 | 0.78x |
| 持久记忆 (本文) | 84.7% | 90.2% | 7.2 | 0.62x |

数据要点： 持久记忆不仅在准确率上超越了CoCoNuT，还实现了更低的延迟和成本，证明连续潜在推理可以比离散token生成既更高效又更有效。

工作原理

考虑一个多跳规划任务：“规划一条从纽约到洛杉矶、避开收费公路并途经丹佛的路线。”传统LLM会生成中间token，如“首先，前往芝加哥……”，这会消耗计算资源和上下文窗口。CoCoNuT在潜在空间中探索路径，但每层后都会丢失中间约束。持久记忆则将约束条件（避开收费公路、包含丹佛）作为连续状态维护，使模型能够跨token优化计划，而无需重新生成整个上下文。这好比人类在导航时保持一张心理地图，而不是写下每一个转弯。

关键参与者与案例研究

研究人员与机构

这一突破由剑桥大学和DeepMind的团队引领，负责人是Elena Voss博士，她曾是OpenAI研究员，以稀疏注意力机制方面的研究闻名。他们的论文《通过持久记忆实现连续潜在推理》已被ICML 2025接收。Voss博士此前曾参与CoCoNuT的开发，但发现了其局限性，从而促成了这一新方向。

竞争格局

| 公司/产品 | 方法 | 关键优势 | 劣势 |
|---|---|---|---|
| OpenAI (GPT-5) | 带显式token的思维链 | 基准测试准确率高 | 计算成本高，上下文窗口大 |
| Anthropic (Claude 4) | 宪法AI + 潜在推理 | 注重安全，可解释性强 | 推理速度慢，多跳能力有限 |
| Google DeepMind (Gemini 2) | 混合专家 + CoCoNuT | 并行探索 | 概念瓶颈，内存开销大 |
| 持久记忆 (本文) | 连续潜在状态 | 低成本，深度推理 | 较新，在真实任务上测试不足 |

数据要点： 持久记忆提供了低成本与高深度的独特组合，使其有潜力颠覆那些依赖繁重token推理的既有玩家。

案例研究：代码生成

由OpenAI的GPT-4驱动的GitHub Copilot在复杂代码生成中使用显式思维链，通常需要多次API调用来优化逻辑。在一个自定义代码助手中（仓库：persistent-coder，1,100颗星）对持久记忆的测试实现显示，生成一个多文件Web应用时API调用减少了35%，因为持久状态跨函数维护了整体架构。

时间归档

常见问题

这次模型发布“Persistent Memory Unlocks Continuous Latent Reasoning for LLMs”的核心内容是什么？

AINews reports on a critical evolution in large language model architecture: the introduction of persistent memory across token dimensions to overcome the 'concept bottleneck' in l…

从“persistent memory vs chain of thought cost comparison”看，这个模型发布为什么重要？

The core innovation addresses a fundamental flaw in current latent space reasoning architectures. Models like CoCoNuT (Continuous Concept Tokenization) allow LLMs to explore multiple reasoning paths in parallel by operat…

围绕“latent space reasoning open source GitHub repository”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。