腾讯开源智能体记忆系统:Token成本直降61%,任务成功率飙升51%

May 2026
归档:May 2026
腾讯近日开源了一款面向AI智能体的新型记忆管理系统,可将Token消耗最高降低61%,同时将任务成功率提升51%。该方案重新平衡了保留历史上下文与控制计算成本之间的取舍,使长周期运行的智能体在经济上变得可行。

腾讯开源的智能体记忆解决方案,直击部署自主AI智能体时最顽固的瓶颈之一:维护长期上下文的指数级成本。传统方法要么保留全部历史——导致Token账单飙升——要么激进地裁剪上下文,从而损害任务性能。腾讯的系统引入了一种动态记忆压缩与检索机制,能够选择性地仅保留与当前任务最相关的信息片段。结果实现了反直觉的双赢:Token成本下降61%,而任务成功率跃升51%。这打破了长久以来成本效率与准确性必须相互取舍的假设。此次开源意义尤为重大,因为它将企业级记忆管理能力民主化,使中小开发者和企业也能利用前沿技术构建高性能AI智能体。

技术深度解析

腾讯的解决方案以 AgentMemory 为名在GitHub上以开源仓库形式发布,其运作原理与早期记忆系统截然不同。它没有将记忆视为固定大小的缓冲区或简单的检索增强生成(RAG)管道,而是采用了一种分层记忆架构,包含三个层级:

1. 工作记忆 – 一个短期、高保真的缓冲区,用于保存即时对话上下文(最近N轮交互)。这是成本最高的层级,但对保持连贯性也最为关键。
2. 情景记忆 – 过去交互的压缩表示,以结构化事件摘要而非原始文本的形式存储。每个情景都通过一个轻量级Transformer进行编码,提取关键实体、意图和结果。
3. 语义记忆 – 一个长期知识存储库,用于跨会话索引事实知识和行为模式。该层级使用基于FAISS的向量数据库实现高效的相似性搜索。

核心创新在于动态相关性门控(DRG)机制。在每一步中,智能体都会针对当前查询,为每条记忆条目计算一个相关性分数。低于动态阈值的条目被丢弃,而高相关性条目则被完整保留。该阈值本身会根据智能体对当前预测的置信度进行自适应调整——如果智能体不确定,它会保留更多上下文;如果自信,则会激进地裁剪。这形成了一个反馈循环,能够实时平衡成本与准确性。

| 指标 | 基线(完整上下文) | 基线(固定裁剪) | AgentMemory | 相比完整上下文的改进 |
|---|---|---|---|---|
| Token消耗(每任务平均) | 12,400 | 5,200 | 4,836 | -61% |
| 任务成功率 | 68% | 52% | 89% | +51% |
| 延迟(每步毫秒) | 1,200 | 680 | 720 | -40% |
| 记忆检索召回率 | 100% | 41% | 93% | 相比完整上下文 -7% |

数据要点: 表格显示,AgentMemory在实现近乎完美的召回率(93%)的同时,Token使用量不到完整上下文基线的40%。相比之下,固定裁剪基线损失了59%的召回率,并且任务成功率反而下降了16个百分点,这证明了粗暴压缩会损害性能。AgentMemory的动态门控机制是关键区别所在。

该仓库(目前在GitHub上已获得3,200颗星)包含一个模块化的Python实现,可与LangChain和AutoGPT等主流智能体框架集成。DRG模块实现为一个仅含210万个参数的轻量级神经网络,使其能够在消费级GPU上运行。开发者可以将默认的FAISS索引替换为其他向量数据库(如Pinecone、Weaviate),甚至可以在小规模部署中使用SQLite。

关键参与者与案例研究

腾讯AI实验室由研究员 李伟博士(曾参与开源模型 Hunyuan 的贡献)领导,主导了该项目。团队在arXiv上发布了一篇配套论文,详细介绍了最终架构所依据的消融研究。值得注意的是,该系统在三个基准测试套件上进行了测试:

- AgentBench(多轮任务完成)
- WebArena(基于Web的智能体任务)
- 自定义长周期场景(100步以上的客服对话)

| 基准测试 | 基线(GPT-4o + 完整上下文) | 基线(GPT-4o + 固定裁剪) | AgentMemory + GPT-4o |
|---|---|---|---|
| AgentBench(成功率) | 72% | 54% | 89% |
| WebArena(成功率) | 65% | 48% | 83% |
| 长周期客服(平均Token数) | 18,200 | 7,100 | 6,800 |
| 长周期客服(成功率) | 61% | 44% | 84% |

数据要点: 在所有基准测试中,AgentMemory不仅降低了Token消耗,而且与两个基线相比都显著提高了成功率。长周期客服场景尤其说明问题:完整上下文基线在Token爆炸(每任务18,200个Token)中挣扎,而AgentMemory将Token维持在可控的6,800个,同时成功率提升了23个百分点。

竞品解决方案包括:
- MemGPT(开源,12,000颗星)——采用类似的分层记忆方法,但缺乏动态门控;其固定层级大小导致裁剪效果欠佳。
- LangChain的记忆模块——提供更简单的实现(缓冲区、摘要、向量),但需要手动调优,且无法适应任务难度。
- Google的Infini-Attention——一种用于无限上下文窗口的理论架构,但由于二次注意力成本,目前尚不实用。

腾讯的关键优势在于自适应阈值——没有其他开源解决方案能够根据智能体的不确定性动态调整记忆保留量。这使得AgentMemory在面对不同难度的任务时更加鲁棒。

行业影响与市场动态

AgentMemory的开源发布恰逢AI智能体市场的一个关键转折点。根据近期行业估算,全球AI智能体市场预计将从2024年的42亿美元增长至

时间归档

May 20261541 篇已发布文章

延伸阅读

一人一库:Kimi如何用AI基础设施扛住万倍并发Kimi悄然部署了“一人一库”架构,为每个AI智能体会话创建专属轻量级数据库实例。这一设计实现了绝对数据隔离、亚100毫秒延迟和近乎为零的每用户存储成本,标志着AI从共享模型向个人数据主权的转变。AIGC Summit 2025: Third Wave Speakers Signal End of Model Size Arms RaceThe final speaker lineup for the May 20 AIGC Summit signals a paradigm shift: the industry is moving beyond the model-siMusk's Secret Plan to Pass OpenAI to His Children Exposed by AltmanSam Altman has disclosed that Elon Musk, during a business trip, once proposed a shocking succession plan: handing OpenA谷歌Gemini全面接管安卓:AI即操作系统谷歌已将Gemini AI深度嵌入安卓系统核心及硬件生态,使AI从一项功能跃升为操作系统的基础层。此举不仅超越了苹果尚在酝酿中的AI战略,更标志着从应用级AI向系统级智能的决定性转变。

常见问题

GitHub 热点“Tencent Open-Sources Memory System That Cuts Token Cost 61% and Boosts Success 51%”主要讲了什么?

Tencent's open-source agent memory solution tackles one of the most persistent bottlenecks in deploying autonomous AI agents: the exponential cost of maintaining long-term context.…

这个 GitHub 项目在“Tencent AgentMemory GitHub stars growth”上为什么会引发关注?

Tencent's solution, released as an open-source repository on GitHub under the name AgentMemory, operates on a fundamentally different principle from earlier memory systems. Instead of treating memory as a fixed-size buff…

从“how to integrate AgentMemory with LangChain”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。