ComMem:给AI装上生物级记忆——视觉语言模型学会持续学习与自适应

arXiv cs.AI June 2026
来源:arXiv cs.AI归档:June 2026
一种名为ComMem的新方法正在重新定义视觉语言模型(VLM)的实时自适应能力。通过模仿大脑的互补记忆系统——短期编码与长期巩固相结合——ComMem让AI能够在不同任务和环境中持续学习,克服了当前测试时自适应方法中普遍存在的灾难性遗忘问题。

在动态真实环境中部署视觉语言模型(VLM)的核心挑战,在于快速适应与知识保留之间的权衡。现有的测试时自适应(TTA)方法,如TENT或SHOT,虽然能实时微调模型参数,但将每一次新的分布偏移视为孤立事件。结果导致一种“学习失忆症”:模型适应了雨景,但遇到雪景时,它已忘记雨景的适应经验,必须从头开始。由认知科学与机器学习交叉领域的研究人员开发的ComMem,通过引入双记忆架构直接解决了这一问题。该系统包含一个快速学习的短期记忆(STM),用于捕获即时的视觉-语言特征,以及一个慢速学习的长期记忆(LTM),用于巩固和存储知识。在基准测试中,ComMem在自动驾驶数据集BDD100K上相比最佳基线EATA实现了9.4%的准确率提升,同时保持了可接受的延迟和内存开销。

技术深度解析

ComMem的架构直接对应了McClelland、McNaughton和O'Reilly于1995年提出的互补学习系统(CLS)理论的计算模拟。在大脑中,海马体快速编码情景记忆,然后逐渐巩固到新皮层进行长期存储。ComMem通过两个不同的记忆模块复制了这一过程:

- 短期记忆(STM): 一个轻量级、高容量的缓冲区,存储最近的输入-输出对及其潜在表示。STM使用可配置大小的滑动窗口机制(通常为64-128个样本)。它采用快速权重更新规则——本质上是对每个传入样本执行单步梯度更新——使其能够在毫秒内适应分布偏移。STM是易失性的;其内容会随着新数据的到来而被覆盖。

- 长期记忆(LTM): 一个持久化的结构化知识库,存储巩固后的原型。每个原型都是一个跨模态嵌入对:一个视觉特征向量(来自VLM的视觉编码器,例如CLIP ViT-L/14)和一个对应的文本描述(来自语言解码器)。LTM使用带有可微分读/写机制的记忆增强神经网络(MANN),类似于神经图灵机或可微分神经计算机。然而,ComMem引入了一种新颖的对比巩固损失,确保LTM只存储那些信息丰富且与现有条目不冗余的特征。这防止了内存膨胀并保持了检索效率。

自适应流水线:
1. 编码: 新输入(例如,雪地道路的图像)通过VLM的视觉编码器。生成的视觉嵌入存储在STM中。
2. 检索: 同时,系统使用该视觉嵌入作为键查询LTM。LTM返回前k个最相似的跨模态原型(例如,“雨夜道路”、“雾天高速公路”)。
3. 融合: 检索到的原型与当前视觉嵌入拼接,并输入到一个轻量级适配器模块(一个具有256个隐藏单元的双层MLP)。该适配器生成一个上下文化的特征,用于指导语言解码器的输出。
4. 巩固: 在处理一批输入(例如,16帧)后,系统计算STM最近嵌入与LTM现有原型之间的对比巩固损失。如果新嵌入足够独特(余弦距离 > 0.3),则将其添加到LTM中。如果与现有原型相似,则通过运行平均值更新该原型。

基准性能:
作者在三个标准VLM自适应基准上评估了ComMem:ImageNet-C(鲁棒性)、COCO-O(分布外检测)以及一个自定义自动驾驶数据集(BDD100K,包含天气变化)。关键指标是所有分布偏移下的平均准确率,同时衡量适应速度和知识保留能力。

| 模型 | ImageNet-C (mCE ↓) | COCO-O (AUROC ↑) | BDD100K (Acc ↑) | 适应延迟 (ms) | 内存占用 (MB) |
|---|---|---|---|---|---|
| TENT (基线) | 68.2 | 0.81 | 72.4 | 12 | 0 (无记忆) |
| SHOT (基线) | 65.9 | 0.83 | 74.1 | 18 | 0 |
| EATA (基线) | 63.1 | 0.85 | 76.8 | 22 | 5 |
| ComMem (本文) | 58.4 | 0.91 | 83.2 | 28 | 128 |

数据要点: 在自动驾驶基准BDD100K上,ComMem相比最佳基线EATA实现了9.4%的相对准确率提升,代价是延迟增加了27%以及128 MB的内存占用。对于大多数边缘应用而言,这种权衡是可以接受的,因为内存成本低廉而准确率至关重要。在COCO-O上0.91的AUROC表明,ComMem在区分分布内样本与分布外样本方面表现出色,这是安全关键系统的一个关键要求。

相关开源工作: 尽管ComMem本身尚未开源(截至2026年6月),但其底层技术借鉴了多个公共代码库。CLIP 代码库(openai/CLIP,22k+星标)提供了视觉编码器主干。记忆增强神经网络方法在MANN代码库(google-research/mann,1.2k星标)中实现。对于对比学习,SimCLR框架(google-research/simclr,4.5k星标)是基础。实践者可以尝试使用这些组件来构建自己的双记忆系统。

关键参与者与案例研究

ComMem的开发归功于来自加州大学伯克利分校和马克斯·普朗克智能系统研究所的一个研究团队。第一作者Elena Voss博士此前在DeepMind从事持续学习研究。该项目获得了美国国家科学基金会鲁棒智能项目的资助。

竞争方法:

| 方法 | 开发者 | 机制 | 关键局限 |
|---|---|---|---|
| TENT | Wang et al. (2020) | 测试样本上的熵最小化 | 无记忆;忘记之前的适应经验 |
| SHOT | Liang et al. (2020) | 源假设转移与信息最大化 | 无记忆;每次适应独立 |
| EATA | Niu et al. (2022) | 高效测试时自适应与熵正则化 | 有限的记忆缓冲;无法长期保留知识 |
| ComMem | Voss et al. (2026) | 双记忆系统(STM + LTM)与对比巩固 | 内存占用较高(128 MB);延迟略有增加 |

更多来自 arXiv cs.AI

AI智能体学会沉默:懂得何时停止,才是真正的智能多年来,AI研究界一直痴迷于一个指标:任务完成率。目标是构建能够浏览、搜索、调用API并不断迭代,直至完全满足用户目标的智能体。但越来越多的证据表明,这种不懈的驱动力是一个关键缺陷。以「智能体弃权」为核心的新一波研究认为,最聪明的智能体是懂BV-Blend:不确定性加权基线如何驯服无评论家强化学习,让LLM对齐更稳健计算效率与训练稳定性之间的张力,长期定义着大语言模型对齐中强化学习的前沿。GRPO(Group Relative Policy Optimization)通过仅依赖单提示组内的奖励统计,消除了评论家网络——那个使内存和计算需求翻倍的价值函数COMPASS框架:让AI真正理解场景布局与构图逻辑多年来,最先进的多模态模型能准确识别图像中的每一个物体,却无法可靠理解这些物体应该如何摆放、场景应该如何组织。这种“理解构图意图”的能力缺失,一直是制约AI在设计、机器人和交互媒体领域应用的隐形瓶颈。由某顶级AI实验室研究人员开发的COMP查看来源专题页arXiv cs.AI 已收录 555 篇文章

时间归档

June 20263071 篇已发布文章

延伸阅读

神经符号驾驶:交通规则如何将VLA推理链锚定真实行动自动驾驶VLA模型长期受困于事后合理化推理。一种全新神经符号框架将交通规则嵌入为硬约束,确保模型内部独白的每一步都因果关联到真实的转向与制动指令。叙事鸿沟:LLM-求解器混合系统为何制造出危险的可靠性幻觉将SAT和SMT求解器嵌入LLM流水线,以确保安全关键问题获得数学可验证的答案,正成为一股热潮。但AINews揭示了一个危险的悖论:求解器的可靠性,在翻译环节被LLM自身的偏见与幻觉悄然侵蚀,最终造就了一个看似可信、实则脆弱的系统。CaVe-VLM-CoT:让AI可审计的自校正视觉模型全新框架CaVe-VLM-CoT引入五阶段反思循环——生成、引用、验证、检索、校正——强制视觉语言模型每一步推理都附带可验证证据。当引用验证失败时,系统自主检索正确数据并重新推导结论,将AI从黑箱变为可审计的推理引擎。局部动力学解锁技能复用:分层强化学习的新范式一项新研究从短期状态转移中提取可复用的行为基元,将技能学习从全局任务目标中解放出来。这一突破有望通过让智能体灵活跨环境迁移技能,加速机器人操作与自主决策的发展。

常见问题

这次模型发布“ComMem Gives AI a Biological Memory: Visual Language Models Learn to Adapt and Remember”的核心内容是什么?

The central challenge in deploying visual language models (VLMs) in dynamic real-world environments is the trade-off between rapid adaptation and knowledge retention. Existing test…

从“ComMem vs TENT benchmark comparison”看,这个模型发布为什么重要?

ComMem’s architecture is a direct computational analog of the complementary learning systems (CLS) theory proposed by McClelland, McNaughton, and O’Reilly in 1995. In the brain, the hippocampus rapidly encodes episodic m…

围绕“ComMem memory consolidation algorithm explained”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。