技术深度解析
Adapt架构的核心是引入一个自重构情景记忆(SREM)层,该层与LLM的主要Transformer参数相邻但独立。与传统将嵌入向量存储在固定索引中的向量数据库不同,SREM是一个基于图的神经记忆系统,由一个专门的“记忆管理”智能体持续编辑——该管理智能体本身也是一个轻量级LLM。
其工作流程是一个持续循环:
1. 经验编码: 每次用户交互(一个查询-响应对,或多轮对话)被处理成一个结构化的“经验节点”。该节点不仅包含语义嵌入向量,还包含元数据:时间戳、情感效价(如可检测)、推断的用户意图,以及与先前相关节点的链接。
2. 管理分析: 周期性地,或由特定事件触发(例如会话结束、检测到矛盾),记忆管理LLM会分析经验节点图。它执行以下任务:
* 聚类与总结: 合并冗余节点,或将一系列相关交互总结为更高级别的“概念节点”。
* 关联性重加权: 根据新近度、频率和上下文重要性,调整节点之间的关联强度。
* 冲突解决: 识别并尝试调和记忆中存储的矛盾信息(例如,“用户周一说不喜欢巧克力,但周二点了巧克力蛋糕”)。
* 修剪: 安全地归档或删除被认为过时或对未来交互预测价值低的节点。
3. 动态检索: 当主LLM处理新查询时,它不仅执行K近邻搜索。相反,它会激活SREM内的一个子图。检索过程以当前上下文和已习得的记忆图结构本身为条件,不仅提取语义直接相似的项,还包括因果或时间上相关联的概念。
该项目的GitHub仓库(`adapt-memory/adapt-core`)提供了一个基于PyTorch构建的参考实现,并使用改进的图注意力网络(GAT)作为记忆图的底层结构。最近的提交显示,团队正在积极开发“压缩总结”算法以防止记忆膨胀。该仓库已获得显著关注,在低调发布数月内星标数超过4.2k,表明开发者和研究人员兴趣浓厚。
内部测试的早期基准结果(虽未经同行评审)突显了其权衡。该系统在“纵向对话”任务上进行了测试,该任务要求模型基于跨越多个会话的超长对话中确立的事实来回答问题。
| 模型 / 方法 | 上下文窗口 | 第10会话问题准确率 | 延迟(毫秒) | 内存开销 |
|---|---|---|---|---|
| GPT-4(标准) | 128K tokens | 12% | 1200 | 无 |
| GPT-4 + 基础RAG | 外部数据库 | 47% | 1800 | 5GB(静态) |
| Llama 3 70B + Adapt SREM | 4K tokens + SREM | 68% | 2200 | 2GB(动态) |
| Claude 3 Opus | 200K tokens | 58% | 2500 | 无 |
数据要点: 尽管原生上下文窗口很小,但配备Adapt增强的模型在长期一致性任务上显著优于超大上下文模型和静态RAG。代价是延迟增加和动态内存开销,但其基于图的检索效率在个性化、长周期应用中似乎提供了更优的精度-资源权衡。
关键参与者与案例研究
功能性LLM记忆的竞赛已不再是理论探讨,而是一个战略战场。Adapt的开源方法与主要现有厂商的路线图形成对比并施加压力。
* OpenAI: 一直在谨慎探索记忆功能,最近为ChatGPT推出了用户可控的“记忆”,允许模型记住用户明确提供的细节。这是一个以产品为中心、选择加入且很可能基于规则的系统,与Adapt自主的、结构化的方法相去甚远。OpenAI的路径优先考虑安全性和可控性,而非架构上的野心。
* Anthropic: Claude的20万上下文窗口是目前短期记忆的“暴力”冠军。然而,Anthropic的研究论文频繁讨论“宪法AI”和长期导向,表明其对持久模型特质有浓厚兴趣。Adapt的架构可能天然地补充Anthropic注重价值观的训练方法,使这些原则能够通过用户体验得到强化和情境化。
* Google DeepMind: 他们在“记忆增强神经网络”以及Gemini系列原生多模态上下文处理方面的研究提供了基础性工作。像用于高效数据选择的`JEST`等项目也暗示了其对体验质量而非数量的关注。Adapt的自管理机制与Google的这种研究理念相符。
* 初创公司与开源社区: 除了Adapt,像`MemGPT`(该项目……)等项目也在探索类似的前沿方向。开源生态的活力正推动记忆架构的创新速度,可能迫使大型厂商更快地开放或调整其方法。