技术深度解析
Anamnesis的核心设计是作为中间件层,介于AI智能体(例如由GPT-4、Claude或Llama驱动)与其执行环境之间。其架构围绕四个概念维度构建,以此结构化记忆的摄取与检索过程:
1. 时间维度: 每个事件(行动、观察、决策)都被打上时间戳并建立索引。这支持按时间顺序排列,并允许进行诸如“在这种方法失败之前我尝试了什么?”之类的查询。
2. 事件维度: 记忆被聚类成连贯的事件或任务(例如“3月15日API错误调试会话”、“与客户X的用户引导对话”)。这提供了叙事结构。
3. 语义维度: 记忆使用诸如OpenAI的`text-embedding-3-small`或`sentence-transformers`库中的开源替代模型进行嵌入。这使得基于内容的相似性搜索成为可能,允许智能体回忆概念上相关的过往经验,即使它们发生在不同的事件中。
4. 战略维度: 这是最新颖的一层。它涉及一个高阶标注系统,用推断的结果、习得的启发式方法和修订的策略来标记记忆。例如,在一个编码智能体三次使用某个库修复错误失败后,战略记忆可能会存储规则:“在并发网络任务中避免使用Y库。”
该框架的GitHub仓库(`anamnesis-ai/core`)展示了模块化设计。`MemoryIndex`模块处理向量和时序数据库(通常使用带pgvector扩展的PostgreSQL或专门的向量数据库如Qdrant)。`EpisodicChunker`模块分解连续的交互流。`StrategicAnnotator`是一个基于轻量级LLM的分类器,在后台运行,用于评估结果并提取经验教训。
一个关键的工程挑战是检索延迟。Anamnesis采用混合搜索:首先,通过嵌入向量进行快速的语义相似性搜索以缩小候选记忆池;然后,一个考虑时效性、战略重要性和事件相关性的重排序器对最终要注入智能体上下文窗口的记忆进行评分。该项目针对模拟软件开发智能体进行的基准测试显示了有希望的结果:
| 任务类型 | 基线智能体(无记忆) | 智能体 + Anamnesis(1周记忆) | 提升幅度 |
|---|---|---|---|
| 错误修复(曾见过) | 12% 成功率 | 67% 成功率 | +458% |
| 新功能开发(利用过往模式) | 平均45分钟完成 | 平均28分钟完成 | -38% 时间 |
| 战略性错误规避 | 平均0.71个错误/任务 | 平均0.22个错误/任务 | -69% 错误 |
数据启示: 基准数据表明,持久化、结构化的记忆不仅仅是一个锦上添花的功能;它通过允许智能体避免过去的错误并重用有效模式,显著提高了效率和成功率,从而转化为实质性的生产力提升。
关键参与者与案例研究
智能体记忆系统的开发正成为一个关键战场,不同的参与者追求着各异的策略。Anamnesis进入了一个既有开源也有专有竞争者的领域。
开源领域先驱:
* LangChain/LangGraph: 虽然主要是一个编排框架,但其`StateGraph`和持久化功能代表了一种在会话间维护智能体状态的相邻方法。然而,它缺乏Anamnesis那种专门的、多维度的索引和战略标注。
* AutoGPT/Project BabyAGI: 这些早期的自主智能体项目尖锐地凸显了记忆问题——智能体常常会陷入循环或忘记核心目标。它们的解决方案通常是简单的文本文件日志,而Anamnesis旨在用一个远为复杂的系统来取代这些方案。
专有及研究导向的努力:
* OpenAI的“项目”(带记忆的GPTs): OpenAI已为ChatGPT推出了记忆功能,使其能够记住跨对话的用户偏好。这是一种面向消费者、注重隐私的简易持久记忆实现,验证了核心用户需求,但其规模远比Anamnesis以智能体为中心的设计简单。
* Meta的CICERO: 在《外交》游戏中达到人类水平表现的AI,需要随时间推移对其他玩家信念和意图进行复杂建模——这是一种特殊形式的战略记忆。来自此类项目的研究直接启发了像Anamnesis这样的框架背后的雄心。
* Cognition Labs (Devin): 这个能力卓越的AI软件工程师智能体很可能采用了专有的高级记忆系统来跟踪代码库、决策和跨长时间开发会话的进度。其有效性是Anamnesis试图普及的这项能力价值的有力市场信号。
| 解决方案 | 方法 | 关键差异化优势 | 目标用户 |
|---|---|---|---|
| Anamnesis | 开源、多维引擎 | 战略标注与时间感知检索 | AI开发者、研究者 |