ComMem：给AI装上生物级记忆——视觉语言模型学会持续学习与自适应

2026年6月30日 13:05 AINews arXiv cs.AI June 2026

来源：arXiv cs.AI 归档：June 2026

一种名为ComMem的新方法正在重新定义视觉语言模型（VLM）的实时自适应能力。通过模仿大脑的互补记忆系统——短期编码与长期巩固相结合——ComMem让AI能够在不同任务和环境中持续学习，克服了当前测试时自适应方法中普遍存在的灾难性遗忘问题。

在动态真实环境中部署视觉语言模型（VLM）的核心挑战，在于快速适应与知识保留之间的权衡。现有的测试时自适应（TTA）方法，如TENT或SHOT，虽然能实时微调模型参数，但将每一次新的分布偏移视为孤立事件。结果导致一种“学习失忆症”：模型适应了雨景，但遇到雪景时，它已忘记雨景的适应经验，必须从头开始。由认知科学与机器学习交叉领域的研究人员开发的ComMem，通过引入双记忆架构直接解决了这一问题。该系统包含一个快速学习的短期记忆（STM），用于捕获即时的视觉-语言特征，以及一个慢速学习的长期记忆（LTM），用于巩固和存储知识。在基准测试中，ComMem在自动驾驶数据集BDD100K上相比最佳基线EATA实现了9.4%的准确率提升，同时保持了可接受的延迟和内存开销。

技术深度解析

ComMem的架构直接对应了McClelland、McNaughton和O'Reilly于1995年提出的互补学习系统（CLS）理论的计算模拟。在大脑中，海马体快速编码情景记忆，然后逐渐巩固到新皮层进行长期存储。ComMem通过两个不同的记忆模块复制了这一过程：

- 短期记忆（STM）： 一个轻量级、高容量的缓冲区，存储最近的输入-输出对及其潜在表示。STM使用可配置大小的滑动窗口机制（通常为64-128个样本）。它采用快速权重更新规则——本质上是对每个传入样本执行单步梯度更新——使其能够在毫秒内适应分布偏移。STM是易失性的；其内容会随着新数据的到来而被覆盖。

- 长期记忆（LTM）： 一个持久化的结构化知识库，存储巩固后的原型。每个原型都是一个跨模态嵌入对：一个视觉特征向量（来自VLM的视觉编码器，例如CLIP ViT-L/14）和一个对应的文本描述（来自语言解码器）。LTM使用带有可微分读/写机制的记忆增强神经网络（MANN），类似于神经图灵机或可微分神经计算机。然而，ComMem引入了一种新颖的对比巩固损失，确保LTM只存储那些信息丰富且与现有条目不冗余的特征。这防止了内存膨胀并保持了检索效率。

自适应流水线：
1. 编码： 新输入（例如，雪地道路的图像）通过VLM的视觉编码器。生成的视觉嵌入存储在STM中。
2. 检索： 同时，系统使用该视觉嵌入作为键查询LTM。LTM返回前k个最相似的跨模态原型（例如，“雨夜道路”、“雾天高速公路”）。
3. 融合： 检索到的原型与当前视觉嵌入拼接，并输入到一个轻量级适配器模块（一个具有256个隐藏单元的双层MLP）。该适配器生成一个上下文化的特征，用于指导语言解码器的输出。
4. 巩固： 在处理一批输入（例如，16帧）后，系统计算STM最近嵌入与LTM现有原型之间的对比巩固损失。如果新嵌入足够独特（余弦距离 > 0.3），则将其添加到LTM中。如果与现有原型相似，则通过运行平均值更新该原型。

基准性能：
作者在三个标准VLM自适应基准上评估了ComMem：ImageNet-C（鲁棒性）、COCO-O（分布外检测）以及一个自定义自动驾驶数据集（BDD100K，包含天气变化）。关键指标是所有分布偏移下的平均准确率，同时衡量适应速度和知识保留能力。

| 模型 | ImageNet-C (mCE ↓) | COCO-O (AUROC ↑) | BDD100K (Acc ↑) | 适应延迟 (ms) | 内存占用 (MB) |
|---|---|---|---|---|---|
| TENT (基线) | 68.2 | 0.81 | 72.4 | 12 | 0 (无记忆) |
| SHOT (基线) | 65.9 | 0.83 | 74.1 | 18 | 0 |
| EATA (基线) | 63.1 | 0.85 | 76.8 | 22 | 5 |
| ComMem (本文) | 58.4 | 0.91 | 83.2 | 28 | 128 |

数据要点： 在自动驾驶基准BDD100K上，ComMem相比最佳基线EATA实现了9.4%的相对准确率提升，代价是延迟增加了27%以及128 MB的内存占用。对于大多数边缘应用而言，这种权衡是可以接受的，因为内存成本低廉而准确率至关重要。在COCO-O上0.91的AUROC表明，ComMem在区分分布内样本与分布外样本方面表现出色，这是安全关键系统的一个关键要求。

相关开源工作： 尽管ComMem本身尚未开源（截至2026年6月），但其底层技术借鉴了多个公共代码库。CLIP 代码库（openai/CLIP，22k+星标）提供了视觉编码器主干。记忆增强神经网络方法在MANN代码库（google-research/mann，1.2k星标）中实现。对于对比学习，SimCLR框架（google-research/simclr，4.5k星标）是基础。实践者可以尝试使用这些组件来构建自己的双记忆系统。

关键参与者与案例研究

ComMem的开发归功于来自加州大学伯克利分校和马克斯·普朗克智能系统研究所的一个研究团队。第一作者Elena Voss博士此前在DeepMind从事持续学习研究。该项目获得了美国国家科学基金会鲁棒智能项目的资助。

竞争方法：

| 方法 | 开发者 | 机制 | 关键局限 |
|---|---|---|---|
| TENT | Wang et al. (2020) | 测试样本上的熵最小化 | 无记忆；忘记之前的适应经验 |
| SHOT | Liang et al. (2020) | 源假设转移与信息最大化 | 无记忆；每次适应独立 |
| EATA | Niu et al. (2022) | 高效测试时自适应与熵正则化 | 有限的记忆缓冲；无法长期保留知识 |
| ComMem | Voss et al. (2026) | 双记忆系统（STM + LTM）与对比巩固 | 内存占用较高（128 MB）；延迟略有增加 |

时间归档

常见问题

这次模型发布“ComMem Gives AI a Biological Memory: Visual Language Models Learn to Adapt and Remember”的核心内容是什么？

The central challenge in deploying visual language models (VLMs) in dynamic real-world environments is the trade-off between rapid adaptation and knowledge retention. Existing test…

从“ComMem vs TENT benchmark comparison”看，这个模型发布为什么重要？

ComMem’s architecture is a direct computational analog of the complementary learning systems (CLS) theory proposed by McClelland, McNaughton, and O’Reilly in 1995. In the brain, the hippocampus rapidly encodes episodic m…

围绕“ComMem memory consolidation algorithm explained”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

ComMem：给AI装上生物级记忆——视觉语言模型学会持续学习与自适应

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题