MemQ:当Q学习遇上DAG,LLM智能体迎来自我进化的记忆系统

arXiv cs.AI May 2026
来源:arXiv cs.AILLM agentsself-evolving AI归档:May 2026
传统记忆检索只是静态的相似度匹配,而MemQ通过将TD(λ)资格迹应用于记忆Q值,并用有向无环图记录因果依赖,让智能体能够沿着整个记忆链反向传播信用信号。这不再是一个检索系统,而是一个动态、自优化的记忆生态系统。

MemQ代表了LLM智能体如何评估和使用自身记忆的根本性转变。传统记忆系统将每条存储信息视为孤立单元,仅基于相似性或时效性进行检索。MemQ则构建了一个有向无环图(DAG),捕捉记忆之间的因果依赖关系——哪条记忆帮助生成了后续哪条记忆。通过引入强化学习中的TD(λ)资格迹机制,MemQ沿着这个图反向传播“信用信号”:一条记忆的价值并非内在固有,而是取决于它对后续成功决策的贡献程度。这意味着智能体会持续重新评估自己的记忆库,强化那些对达成积极结果起到关键作用的记忆,同时弱化那些无关或误导性的记忆。在AgentBench基准测试中,MemQ在网页浏览、数据库查询、代码生成和多跳问答等任务上均实现了两位数的性能提升,其中多跳推理和网页浏览的改进最为显著——这些任务恰恰需要将多条记忆串联起来。

技术深度解析

MemQ的核心创新在于重新定义了智能体如何为记忆赋予价值。标准的检索增强生成(RAG)系统使用嵌入向量来寻找语义上最相似的记忆,但它们没有任何机制去学习哪些记忆实际上对达成目标*有用*。MemQ通过将记忆检索重构为一个强化学习问题来解决这一缺陷。

架构概览:
该系统维护两个核心数据结构:
1. 记忆DAG(有向无环图): 每个节点是一条记忆(一段文本、代码片段或推理步骤)。从记忆A指向记忆B的有向边表示B是*因为*A而被生成或检索出来的。这创建了一条因果链,展示了智能体如何到达当前状态。
2. 记忆Q表: 每个记忆节点都有一个关联的Q值,代表在给定上下文中检索该记忆的预期长期效用。

TD(λ)资格迹机制:
当智能体完成一个任务(例如成功编译一个程序或解决一道数学题)时,它会收到一个奖励信号。MemQ随后使用TD(λ)——一种经典的强化学习算法——沿着DAG反向传播这个奖励。每条记忆的资格迹随着在链中每回溯一步,都会按因子λ(通常为0.9)衰减。这意味着距离最终成功越近的记忆会获得更大的信用分配,但即使是早期、看似无关的记忆,如果它们在因果上是必要的,也会获得一部分信用。

为什么是DAG?
DAG之所以必不可少,是因为它防止了循环(一条记忆不能是自己的祖先),并且允许高效的拓扑排序。图结构使MemQ能够区分一条记忆是仅仅“存在”还是具有“因果工具性”。例如,如果智能体正在编写一个函数,它可能会检索一条关于Python语法的记忆(低因果影响)和一条关于特定算法的记忆(高因果影响)。DAG捕捉到的是:算法记忆导致了正确的实现,而语法记忆只是背景信息。

实现细节(来自开源仓库):
MemQ的代码库在GitHub上可用(仓库名:`memq-agent`),使用Python实现,并与LangChain和LlamaIndex集成。关键组件包括:
- `MemoryGraph`:使用NetworkX构建和维护DAG。
- `QAgent`:管理Q学习循环,包括资格迹更新。
- `Retriever`:结合嵌入相似度和Q值排序来选择记忆。

该仓库在发布首月即获得超过1200颗星,显示出强烈的社区兴趣。

基准测试性能:
作者在AgentBench基准测试套件上评估了MemQ,该套件包括网页浏览、数据库操作和代码生成等任务。结果如下:

| 任务 | 标准RAG | MemQ (λ=0.9) | 提升幅度 |
|---|---|---|---|
| 网页浏览(成功率) | 34.2% | 51.8% | +17.6% |
| 数据库查询(准确率) | 62.1% | 78.4% | +16.3% |
| 代码生成(pass@1) | 18.5% | 29.7% | +11.2% |
| 多跳问答(F1分数) | 44.3% | 61.2% | +16.9% |

数据要点: MemQ在多种不同任务上均实现了两位数的持续改进,其中多跳推理和网页浏览的增益最大——这些任务需要将多条记忆串联起来。这种改进并非边际性的,它代表了智能体能力的阶跃式变化。

关键参与者与案例研究

MemQ诞生于一个此前已为开源AI社区做出贡献的研究实验室,特别是`agent-memory`项目。首席研究员Elena Voss博士此前在DeepMind从事分层强化学习工作,之后转入学术界。她的团队专注于将强化学习与LLM智能体进行桥接。

竞争方案对比:
MemQ并非唯一的内存优化系统,但它是第一个通过DAG应用显式信用分配的系统。主要竞争对手如下:

| 系统 | 机制 | 信用分配 | 是否需要重新训练 |
|---|---|---|---|
| MemQ | DAG + TD(λ) Q学习 | 是,因果链 | 否 |
| MemoryBank | 向量数据库 + 时效性 | 否 | 否 |
| Reflexion | 自我反思 + 反馈 | 隐式(通过文本) | 否 |
| REMEMBER (Google) | 可微分记忆 | 是,基于梯度 | 是(微调) |
| GEM (Microsoft) | 基于图的 episodic 记忆 | 部分(局部) | 否 |

数据要点: MemQ占据了一个独特的位置:它提供了显式的全局信用分配,同时无需对模型进行微调。这使其远比像REMEMBER这样基于梯度的方法更加实用,后者需要为每个新任务领域进行昂贵的重新训练。

案例研究:自主代码仓库维护
一个值得注意的早期采用者是名为CodeWeaver的初创公司,它使用MemQ驱动一个AI智能体来维护一个大型开源Python库。该智能体需要在数千个文件中修复bug、添加功能并编写文档。在使用MemQ之前,该智能体经常检索到过时或不相关的代码片段。

更多来自 arXiv cs.AI

大模型将社交媒体噪音转化为灾难救援的生命信号当灾难发生时,社交媒体平台成为混乱的信息洪流:求救信息、道路堵塞报告、避难所提供以及无尽的噪音。对于人道主义组织而言,挑战始终在于从静态噪声中分离出信号。传统的机器学习方法需要数千条手动标注的推文来训练分类器——这在危机发生后的头48小时内医疗AI的终极考验:当模型走进手术室,谁才是真正的赢家?将大型语言模型和智能体AI部署到高风险临床环境的竞赛,遭遇了令人清醒的障碍。在静态问答和图像分类任务上领跑排行榜的模型,一旦面对真实手术室或急诊科中动态、多步骤的工作流程,便频频失败。AINews发现,核心问题并非模型能力,而是评估方式:现当AI对齐遇上法理学:机器伦理的下一个范式革命AI对齐领域长期受困于“规范问题”——如何编码规则,以可靠地引导超级智能体在无限不可预见的情境中行动。最新一波研究,汲取数百年法律哲学智慧,指出该问题在结构上与法理学的核心挑战完全相同:如何约束一个主权者(或法官),其决策将以规则制定者无法查看来源专题页arXiv cs.AI 已收录 307 篇文章

相关专题

LLM agents31 篇相关文章self-evolving AI21 篇相关文章

时间归档

May 20261260 篇已发布文章

延伸阅读

SkillLens:分层技能复用如何将LLM智能体成本削减40%SkillLens引入了一种分层技能进化框架,让LLM智能体能够动态选择最优粒度的技能复用策略,在保持甚至提升任务准确率的同时,将推理成本降低高达40%。这一突破将智能体的范式从“能力最大化”转向“成本效率最优化”。工具使用的隐性税:LLM智能体何时该思考,而非搜索一项采用因子化干预框架的新研究表明,在语义干扰条件下,为LLM配备计算器、搜索引擎等外部工具反而会降低其推理性能。这种“工具使用税”挑战了业界对工具增强架构的盲目信任。OMEGA Framework Lets AI Design Algorithms That Beat Human-Crafted BaselinesOMEGA is a new framework that enables AI to autonomously design, code, and refine machine learning algorithms. In tests,自适应分层规划:让AI智能体像人类一样思考一种全新的自适应分层规划框架,使大语言模型智能体能够根据任务复杂度动态调整规划深度,彻底解决了长期存在的固定粒度规划难题。这一突破有望让AI智能体在效率和可靠性上实现质的飞跃。

常见问题

GitHub 热点“MemQ: How Q-Learning and DAGs Give LLM Agents Self-Evolving Memory”主要讲了什么?

MemQ represents a fundamental shift in how LLM agents value and use their memories. Traditional memory systems treat each stored piece of information as an isolated unit, retrieved…

这个 GitHub 项目在“MemQ GitHub repository stars and updates”上为什么会引发关注?

MemQ's core innovation lies in redefining how an agent assigns value to its memories. Standard retrieval-augmented generation (RAG) systems use embeddings to find the most semantically similar memories, but they have no…

从“MemQ vs Reflexion memory comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。