技术深度解析
为AI智能体追求持久记忆的探索,正在超越简单的向量数据库或扩大的上下文窗口。前沿方法利用了预测编码——神经科学中的一个统一理论,该理论认为大脑是一个分层预测机器。其核心计算原理是自由能最小化,即系统旨在减少其内部生成模型的预期与传入感官数据之间的差异(预测误差)。
在架构上,用于AI智能体的预测编码系统通常被构建为堆叠的循环神经层。每一层都试图预测其下一层的活动。信息流是双向的:
- 自下而上:感官输入(如文本、视觉数据、智能体动作)向上传播,携带预测误差——即预测内容与实际发生情况之间的残差。
- 自上而下:更高层级的潜在变量生成对下一层状态的预测。
学习是通过调整内部模型参数,以随时间最小化这些预测误差而发生的。关键在于,每一层的潜在表征并非静态嵌入,而是动态状态,它们不断演化以压缩交互历史并预测未来状态。这创造了一种本质上前瞻性(预测未来)而非仅仅回顾性(回忆过去)的记忆形式。
多项研究实现正在为此铺平道路。GitHub上的PredNet仓库最初为视频预测开发,展示了用于视觉序列的简单PC层次结构。与智能体AI更相关的是像门控预测编码框架这样的工作,它引入了门控机制来控制潜在状态的流动和更新,允许选择性记忆巩固——类似于遗忘或强化某些记忆。另一个值得注意的项目是研究实验室的分层预测编码模型,它明确地对时间层次进行建模,使智能体能够在维护短期任务上下文的同时,精炼长期概念知识。
| 记忆方法 | 机制 | 持久性 | 适应性 | 关键局限 |
|---|---|---|---|---|
| 固定上下文窗口(如GPT-4) | 对标记序列的注意力 | 无(每次会话重置) | 无 | 二次计算成本,无长期保留 |
| 向量数据库检索 | 对存储嵌入的语义搜索 | 静态(嵌入不更新) | 低(需要手动重新嵌入) | 脆弱,无因果/时间结构,无法精炼过去记忆 |
| 循环神经网络(RNN/LSTM) | 隐藏状态向前传递 | 短期至中期 | 中等(状态更新) | 梯度消失,难以扩展,记忆衰减/覆盖 |
| 预测编码层次结构 | 多层预测误差最小化 | 高(潜在模型持续精炼) | 高(持续贝叶斯更新) | 计算密集,训练动态复杂 |
数据启示:表格揭示了一个清晰的权衡:像预测编码这样提供真正持久性和持续适应性的系统,需要显著更高的架构和计算复杂度。这解释了为何当前生产级AI依赖更简单、无状态的模型搭配检索,但也凸显了PC架构旨在突破的天花板。
关键参与者与案例研究
构建具备持久记忆的AI智能体的竞赛,由资金雄厚的初创公司和大型组织内以研究为重点的倡议共同引领,各自策略不同。
以Devin AI软件工程师闻名的Cognition Labs,据称正大力投资于长周期任务执行的研究。虽然未公开其架构细节,但其智能体能够长时间规划和执行任务,暗示了可能受预测世界模型启发的复杂状态管理系统。他们的方法似乎侧重于程序性记忆——即记住如何在多个会话中完成复杂的编码任务。
Adept AI长期倡导与数字界面交互的智能体概念。他们在ACT-1及后续模型上的基础研究强调学习世界的可操作表征。在持久记忆方面,他们的发展轨迹表明正在构建与网站、软件和工具过去交互的情景记忆,使智能体能够回忆“我上个月在Salesforce中是如何解决这个问题的”。
Google DeepMind在基础研究领域仍是中坚力量。他们在MemGPT(请注意,并非某产品)上的工作是一个概念框架,旨在通过类似于计算机内存层次结构(RAM、磁盘)的分层系统,为LLM提供动态记忆上下文。更根本的是,像他们的循环记忆Transformer等项目,正在探索架构修改以实现长序列处理与记忆保持。