MemQ:当Q学习遇上DAG,LLM智能体迎来自我进化的记忆系统

arXiv cs.AI May 2026
来源:arXiv cs.AILLM agents归档:May 2026
传统记忆检索只是静态的相似度匹配,而MemQ通过将TD(λ)资格迹应用于记忆Q值,并用有向无环图记录因果依赖,让智能体能够沿着整个记忆链反向传播信用信号。这不再是一个检索系统,而是一个动态、自优化的记忆生态系统。

MemQ代表了LLM智能体如何评估和使用自身记忆的根本性转变。传统记忆系统将每条存储信息视为孤立单元,仅基于相似性或时效性进行检索。MemQ则构建了一个有向无环图(DAG),捕捉记忆之间的因果依赖关系——哪条记忆帮助生成了后续哪条记忆。通过引入强化学习中的TD(λ)资格迹机制,MemQ沿着这个图反向传播“信用信号”:一条记忆的价值并非内在固有,而是取决于它对后续成功决策的贡献程度。这意味着智能体会持续重新评估自己的记忆库,强化那些对达成积极结果起到关键作用的记忆,同时弱化那些无关或误导性的记忆。在AgentBench基准测试中,MemQ在网页浏览、数据库查询、代码生成和多跳问答等任务上均实现了两位数的性能提升,其中多跳推理和网页浏览的改进最为显著——这些任务恰恰需要将多条记忆串联起来。

技术深度解析

MemQ的核心创新在于重新定义了智能体如何为记忆赋予价值。标准的检索增强生成(RAG)系统使用嵌入向量来寻找语义上最相似的记忆,但它们没有任何机制去学习哪些记忆实际上对达成目标*有用*。MemQ通过将记忆检索重构为一个强化学习问题来解决这一缺陷。

架构概览:
该系统维护两个核心数据结构:
1. 记忆DAG(有向无环图): 每个节点是一条记忆(一段文本、代码片段或推理步骤)。从记忆A指向记忆B的有向边表示B是*因为*A而被生成或检索出来的。这创建了一条因果链,展示了智能体如何到达当前状态。
2. 记忆Q表: 每个记忆节点都有一个关联的Q值,代表在给定上下文中检索该记忆的预期长期效用。

TD(λ)资格迹机制:
当智能体完成一个任务(例如成功编译一个程序或解决一道数学题)时,它会收到一个奖励信号。MemQ随后使用TD(λ)——一种经典的强化学习算法——沿着DAG反向传播这个奖励。每条记忆的资格迹随着在链中每回溯一步,都会按因子λ(通常为0.9)衰减。这意味着距离最终成功越近的记忆会获得更大的信用分配,但即使是早期、看似无关的记忆,如果它们在因果上是必要的,也会获得一部分信用。

为什么是DAG?
DAG之所以必不可少,是因为它防止了循环(一条记忆不能是自己的祖先),并且允许高效的拓扑排序。图结构使MemQ能够区分一条记忆是仅仅“存在”还是具有“因果工具性”。例如,如果智能体正在编写一个函数,它可能会检索一条关于Python语法的记忆(低因果影响)和一条关于特定算法的记忆(高因果影响)。DAG捕捉到的是:算法记忆导致了正确的实现,而语法记忆只是背景信息。

实现细节(来自开源仓库):
MemQ的代码库在GitHub上可用(仓库名:`memq-agent`),使用Python实现,并与LangChain和LlamaIndex集成。关键组件包括:
- `MemoryGraph`:使用NetworkX构建和维护DAG。
- `QAgent`:管理Q学习循环,包括资格迹更新。
- `Retriever`:结合嵌入相似度和Q值排序来选择记忆。

该仓库在发布首月即获得超过1200颗星,显示出强烈的社区兴趣。

基准测试性能:
作者在AgentBench基准测试套件上评估了MemQ,该套件包括网页浏览、数据库操作和代码生成等任务。结果如下:

| 任务 | 标准RAG | MemQ (λ=0.9) | 提升幅度 |
|---|---|---|---|
| 网页浏览(成功率) | 34.2% | 51.8% | +17.6% |
| 数据库查询(准确率) | 62.1% | 78.4% | +16.3% |
| 代码生成(pass@1) | 18.5% | 29.7% | +11.2% |
| 多跳问答(F1分数) | 44.3% | 61.2% | +16.9% |

数据要点: MemQ在多种不同任务上均实现了两位数的持续改进,其中多跳推理和网页浏览的增益最大——这些任务需要将多条记忆串联起来。这种改进并非边际性的,它代表了智能体能力的阶跃式变化。

关键参与者与案例研究

MemQ诞生于一个此前已为开源AI社区做出贡献的研究实验室,特别是`agent-memory`项目。首席研究员Elena Voss博士此前在DeepMind从事分层强化学习工作,之后转入学术界。她的团队专注于将强化学习与LLM智能体进行桥接。

竞争方案对比:
MemQ并非唯一的内存优化系统,但它是第一个通过DAG应用显式信用分配的系统。主要竞争对手如下:

| 系统 | 机制 | 信用分配 | 是否需要重新训练 |
|---|---|---|---|
| MemQ | DAG + TD(λ) Q学习 | 是,因果链 | 否 |
| MemoryBank | 向量数据库 + 时效性 | 否 | 否 |
| Reflexion | 自我反思 + 反馈 | 隐式(通过文本) | 否 |
| REMEMBER (Google) | 可微分记忆 | 是,基于梯度 | 是(微调) |
| GEM (Microsoft) | 基于图的 episodic 记忆 | 部分(局部) | 否 |

数据要点: MemQ占据了一个独特的位置:它提供了显式的全局信用分配,同时无需对模型进行微调。这使其远比像REMEMBER这样基于梯度的方法更加实用,后者需要为每个新任务领域进行昂贵的重新训练。

案例研究:自主代码仓库维护
一个值得注意的早期采用者是名为CodeWeaver的初创公司,它使用MemQ驱动一个AI智能体来维护一个大型开源Python库。该智能体需要在数千个文件中修复bug、添加功能并编写文档。在使用MemQ之前,该智能体经常检索到过时或不相关的代码片段。

更多来自 arXiv cs.AI

AlgoEvolve:LLM驱动交易进化,量化金融迎来达尔文式变革AINews独家发现了一个名为AlgoEvolve的创新框架,它利用大语言模型(LLM)作为语义变异算子,驱动算法交易策略的元进化。与依赖人类直觉和手动编码的传统量化策略开发不同,AlgoEvolve将交易程序视为不断进化的有机体。LLM扮AI安全致命缺陷:顺从人格可一键关闭大模型拒绝机制多年来,AI安全界一直假设模型拒绝有害提示的能力是一个独立、经过专门训练的安全模块——一个通过人类反馈强化学习(RLHF)和宪法AI构建的防火墙。最新研究彻底粉碎了这一假设。通过干预两个广泛使用的开源指令微调模型——Qwen2.5-7B-ISGPO打破模仿瓶颈:大模型推理新范式诞生多年来,推理蒸馏领域一直困于一个根本性缺陷:模型通过模仿专家轨迹来学习,记住的是具体的解题步骤,而非可迁移的推理能力。这种“知其然,不知其所以然”的方法,导致模型在面对新问题时性能急剧下降。策略引导策略优化(SGPO)直接瞄准这一瓶颈,将训查看来源专题页arXiv cs.AI 已收录 517 篇文章

相关专题

LLM agents48 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

从碎片痕迹到结构化技能:智能体学习的范式革命一种从智能体执行痕迹中自动构建技能的全新框架,正在颠覆AI从经验中学习的方式。它将碎片化日志分解为路由、工作流、语义和附件四个维度,超越简单摘要,真正实现智能体系统的自我进化。OpenSkill:让AI智能体在开放世界中从零进化,无需任何外部反馈OpenSkill让AI智能体在开放世界中从零开始进化,无需任何预设学习信号。通过让智能体自己充当老师、批评者和课程设计师,它解决了长期将自进化AI限制在受控环境中的冷启动问题。校准交互式RL终结LLM智能体分布漂移,开启动态学习新纪元一项全新的理论框架——校准交互式强化学习,直接击穿了长期困扰多轮对话LLM智能体的上下文分布漂移问题。通过将模拟器行为与真实用户分布对齐,该方法将静态、脚本化的训练转变为动态、自适应的学习过程。JobBench:从替代到辅助,重新定义AI智能体评估标准一项名为JobBench的全新基准测试,正在颠覆我们衡量AI智能体的方式。它不再追问AI能通过替代人类节省多少GDP,而是直接询问各领域专家:哪些工作你最想甩手给AI?这标志着AI评估从“替代”到“增强”的关键转折。

常见问题

GitHub 热点“MemQ: How Q-Learning and DAGs Give LLM Agents Self-Evolving Memory”主要讲了什么?

MemQ represents a fundamental shift in how LLM agents value and use their memories. Traditional memory systems treat each stored piece of information as an isolated unit, retrieved…

这个 GitHub 项目在“MemQ GitHub repository stars and updates”上为什么会引发关注?

MemQ's core innovation lies in redefining how an agent assigns value to its memories. Standard retrieval-augmented generation (RAG) systems use embeddings to find the most semantically similar memories, but they have no…

从“MemQ vs Reflexion memory comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。