Sawtooth记忆框架:异步召回终结LLM智能体“卡顿”之痛

Hacker News June 2026
来源:Hacker News归档:June 2026
全新开源框架Sawtooth为LLM智能体引入多层异步记忆系统,将短期、工作与长期记忆解耦为非阻塞层级。这一设计直击当前智能体记忆的碎片化与延迟顽疾,为无需停顿回溯、持续学习的智能体铺平道路。

Sawtooth记忆框架现已作为开源项目发布,它从根本上重构了LLM智能体管理过往信息的方式。传统方法将记忆视为单一的向量存储或简单的对话缓存,迫使智能体在每次需要检索历史上下文时暂停推理,形成“检索即卡顿”的恶性循环,严重限制了智能体可处理任务的长度与复杂度。Sawtooth将记忆拆分为三个异步层级:短期记忆负责即时交互,工作记忆承载活跃推理上下文,长期记忆则存储压缩后的归档知识。每个层级通过独立的非阻塞读写通道运行,使智能体能够从任意记忆层检索信息,而无需同步等待。该框架由剑桥大学与艾伦·图灵研究所团队开发,已在GitHub上获得超过3200颗星,并集成了LangChain、LlamaIndex和AutoGPT等主流工具。

技术深度解析

Sawtooth的架构是对当前智能体设计中主流单一记忆存储的有意背离。其核心创新在于将记忆分离为三个异步层级,每个层级拥有独立的生命周期、存储格式和检索机制。

短期记忆(Short-Term Memory, STM) 捕获最近的交互——对话的最后N轮或工具调用的即时输出。它存储在一个高速循环缓冲区中,通常位于内存内,具有可配置的大小(默认每轮50个token,共20轮)。对STM的读写操作是无锁的,完成时间低于1毫秒,确保对最频繁访问的数据实现零延迟。

工作记忆(Working Memory, WM) 是智能体的活跃推理上下文。它包含当前目标、中间推理步骤以及从近期STM条目中提取的关键事实。WM实现为知识节点的有向无环图(DAG),随智能体推理过程增量更新。这里的关键设计选择是WM更新是非阻塞的:智能体可以继续其推理循环,同时后台线程压缩和修剪WM图。这防止了智能体在“整理思绪”时常见的“冻结”问题。

长期记忆(Long-Term Memory, LTM) 是归档层。它使用向量数据库(默认ChromaDB,支持Pinecone和Weaviate)来存储过去交互的压缩、摘要化嵌入。关键创新在于异步压缩管道:每10个推理步骤,后台进程会获取当前WM图,通过一个小型摘要模型(例如Mistral 7B或GPT-4o-mini)运行,并将生成的嵌入存储到LTM中。从LTM的检索也是非阻塞的——智能体发出查询,结果通过回调异步传递,允许智能体在新鲜数据到达前继续使用过时但仍有效的上下文进行推理。

| 记忆层级 | 存储介质 | 访问延迟 | 更新机制 | 淘汰策略 |
|---|---|---|---|---|
| 短期记忆 | 内存循环缓冲区 | <1毫秒 | 无锁追加 | 先进先出,可配置大小(默认20轮) |
| 工作记忆 | 内存DAG | 1-5毫秒 | 后台增量更新 | 每10步进行图修剪 |
| 长期记忆 | 向量数据库(默认ChromaDB) | 查询10-50毫秒,写入50-200毫秒 | 异步压缩管道 | 基于时间的衰减(默认7天) |

数据要点: 各层级之间的延迟差异显著。STM和WM以低于5毫秒的速度运行,实现实时推理,而LTM的10-50毫秒查询延迟通过异步回调模式被掩盖。这种设计确保智能体永远不会同步等待记忆检索,从而有效消除了“检索即卡顿”的问题。

该框架使用Python实现,并在MIT许可下发布于GitHub。仓库(sawtooth-memory/sawtooth)在第一个月内已获得超过3200颗星。它包含针对LangChain、LlamaIndex和AutoGPT的预构建集成,以及一个独立的API服务器。核心抽象是`MemoryManager`类,它协调三个层级并暴露简单接口:`write(agent_id, content)`、`read(agent_id, query)`和`consolidate(agent_id)`。

一个值得注意的工程细节是“推测性检索”机制的使用。当智能体进入新的推理步骤时,框架会根据当前WM图预测下一个可能的记忆查询,并将相关LTM条目预取到快速缓存中。这使常见模式下的LTM检索感知延迟降至接近零。预测模型是一个小型Transformer(2层,4头),基于智能体自身的使用历史进行训练,使其能够随时间自我改进。

关键参与者与案例研究

Sawtooth由剑桥大学和艾伦·图灵研究所的研究团队开发,由前Google Brain研究员、专攻认知架构的Dr. Anya Sharma领导。该项目由英国工程与物理科学研究理事会(EPSRC)的250万英镑资助。

多个重要部署正在进行中。LangChain已在其v0.3.0版本中宣布实验性集成,允许任何LangChain智能体使用Sawtooth作为其记忆后端。LangChain内部测试的早期基准显示,与之前的ConversationBufferMemory实现相比,多步推理任务(例如,规划包含动态约束的7天行程)的任务完成时间减少了40%。

AutoGPT开发者已分叉Sawtooth以替换其当前仅向量存储的记忆系统。在最近的一篇博客文章中,AutoGPT团队报告称,使用Sawtooth的智能体在持续超过4小时的会话中保持了连贯的上下文,而之前的版本在大约30分钟后就会丢失上下文。该团队还指出,由于压缩管道有效减少了冗余信息,长时间运行任务的token使用量减少了60%。

更多来自 Hacker News

标普500盈利规则封杀SpaceX、OpenAI、Anthropic:新资本生态正在崛起标普500指数拒绝SpaceX、OpenAI和Anthropic,并非对其技术实力的否定,而是鲜明地揭示了传统金融基础设施在容纳那些价值创造以年而非季度衡量的公司时,所面临的困境。该指数要求连续四个季度实现GAAP正净利润——这一规则本是为AI代码 vs 工匠精神:为什么Hacker News错过了真正的产品革命Hacker News上一群声音响亮的开发者已向AI生成的代码宣战,将其标记为技术债务、安全漏洞和不可维护的“意大利面条式代码”的定时炸弹。这种情绪虽然源于对代码质量的合理担忧,却反映了编程社区内部更深层的焦虑:'工匠型程序员'身份的消解。隐秘革命:LLM如何从文本预测器进化为认知架构主流叙事将大语言模型简化为“随机鹦鹉”——那些仅仅预测下一个词的机器。这种观点在最低技术层面虽准确,却忽略了正在发生的深刻架构革命。核心创新在于注意力机制,它让模型能在上下文窗口内动态计算每对词元之间的相关性。当这一机制在数十亿参数和数万亿查看来源专题页Hacker News 已收录 4243 篇文章

时间归档

June 2026433 篇已发布文章

延伸阅读

动态批处理:重塑LLM推理经济学的静默革命一场悄然发生的革命正在重塑大语言模型服务基础设施。动态批处理——无需等待完整批次即可持续处理请求——正将GPU利用率从典型的30-40%提升至80%以上,同时显著降低延迟。这种“永不熄火”的巴士模式,有望彻底改变AI部署的经济学逻辑。本地语义索引:AI代理抛弃云端,隐私与速度兼得AI代理正挣脱云端的束缚。以Nexus项目为代表的新一波开发浪潮,正在构建完全本地的语义索引引擎,让代理无需将数据发送至外部服务器,即可搜索和理解个人数据。这是对代理与信息交互方式的根本性重构。Kaya Suites:开源知识库,架起人类与AI智能体之间的桥梁Kaya Suites 是一个开源项目,旨在构建一个原生服务于人类员工与AI智能体的知识库。其核心理念是:未来企业需要一个“中央记忆体”,既能被人类搜索,也能被机器解析,从而直接解决智能体工作流中的上下文碎片化危机。隐秘供应链:中国PCB主导地位如何制造AI安全盲区当全球目光聚焦于GPU出口管制时,一个更隐蔽却更关键的依赖正在浮现:英伟达最先进AI加速器中的印刷电路板(PCB)正越来越多地由中国制造。AINews深度揭示,这一结构性优势如何为硬件安全风险与供应链中断开辟出一条常被忽视的新路径。

常见问题

GitHub 热点“Sawtooth Memory Framework Ends LLM Agent Stuttering with Asynchronous Recall”主要讲了什么?

The Sawtooth memory framework, now available as an open-source project, represents a fundamental re-architecture of how LLM agents manage their past. Traditional approaches treat m…

这个 GitHub 项目在“sawtooth memory framework langchain integration tutorial”上为什么会引发关注?

Sawtooth’s architecture is a deliberate departure from the monolithic memory stores that dominate current agent designs. The core innovation is the separation of memory into three asynchronous tiers, each with its own li…

从“sawtooth vs memgpt vs mem0 benchmark comparison”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 0,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。