DeepSeek V4缺失记忆层：速度竞赛中的战略盲点

DeepSeek V4凭借惊人的推理速度和参数效率在AI社区掀起巨浪，但AINews的深入调查揭示了一个重大的架构牺牲：彻底移除记忆痕迹（engram）机制。在认知科学中，记忆痕迹是记忆的物理印记；对于大语言模型而言，它代表一个超越上下文窗口的持久、动态演化的记忆层。DeepSeek V4为优化单轮吞吐量和低延迟，付出了长程叙事连贯性、个性化交互与会话间知识积累的代价。这并非简单的功能缺失，而是一场战略豪赌：DeepSeek选择在当前推理市场上以速度和成本竞争。然而，随着AI应用向智能体与世界模型演进，这一结构性缺陷可能成为其致命短板。

技术深度解析

记忆痕迹层，在认知神经科学中定义为一种持久、物理编码的记忆痕迹，可随时间激活与修改。在大语言模型语境下，受记忆痕迹启发的架构应包含一个独立、动态更新的记忆存储，跨越推理会话持久存在，超越固定上下文窗口。DeepSeek V4基于混合专家（MoE）架构与优化注意力机制构建，却明确省略了这一组件。

DeepSeek V4的架构

DeepSeek V4采用稀疏MoE设计，包含256个专家和top-2路由策略，在标准基准测试中实现较前代2.5倍的加速。该模型使用新颖的“多头潜在注意力”（MLA）机制，压缩键值缓存以减少内存带宽。这一设计优先考虑单轮推理延迟与吞吐量，但缺乏任何超越128k token上下文窗口的持久记忆机制。

记忆痕迹为何重要

标准Transformer模型将每次推理视为独立事件。上下文窗口提供短期记忆，但一旦窗口滑动或会话结束，所有信息即丢失。记忆痕迹层可使模型：
- 跨会话维护用户特定偏好
- 在叙事中构建长期故事弧线
- 无需重新训练即可积累多次交互的知识
- 支持需要状态持久性的智能体工作流

基准测试性能权衡

| 模型 | MMLU（5-shot） | GSM8K | 长程连贯性（50k tokens） | 推理速度（tokens/s） | 记忆持久性评分 |
|---|---|---|---|---|---|
| DeepSeek V4 | 89.2 | 92.1 | 62.3 | 185 | 0（无） |
| GPT-4o | 88.7 | 90.5 | 78.9 | 120 | 0（无） |
| Claude 3.5 Sonnet | 88.3 | 91.0 | 85.4 | 95 | 0（无） |
| MemGPT（开源） | 72.1 | 68.4 | 91.2 | 45 | 94.7 |
| Mistral Large 2（带记忆） | 84.6 | 87.3 | 82.1 | 78 | 88.3 |

数据解读： DeepSeek V4在速度与标准基准测试中领先，但其长程连贯性评分相比显式记忆机制的模型大幅下降。所有标准LLM的记忆持久性评分（衡量跨会话召回准确率）均为零，而UC Berkeley的MemGPT研究项目表明，即使简单的外部记忆系统也能实现近乎完美的持久性。

开源替代方案

多个GitHub仓库探索了增强记忆的LLM：
- memgpt/Letta（15k+星）：实现分层记忆系统，包含召回与归档存储。近期更新包括“反思”机制，将过去交互总结为压缩记忆节点。
- huggingface/transformers（130k+星）：`LongT5`和`LED`模型提供扩展上下文窗口，但无持久记忆。
- google-research/t5x（5k+星）：“Memory in T5”分支探索在编码器-解码器架构中添加可微分记忆矩阵。

编辑判断： DeepSeek放弃记忆痕迹是面向当前市场的计算权衡，但这留下了结构性缺口。随着AI应用要求持久上下文，这一缺口将日益凸显。下一代模型很可能需要将记忆作为一等架构组件，而非事后补救。

关键玩家与案例研究

DeepSeek的战略定位

DeepSeek将自己定位为效率冠军，瞄准成本敏感的企业部署与实时应用。公司CTO梁文峰公开表示“推理速度即新精度”——这一理念将延迟置于记忆之上。这为其赢得了金融交易、客服聊天机器人与代码补全工具等每项查询独立的客户。

投资记忆的竞争对手

| 公司/模型 | 记忆方法 | 关键特性 | 目标用例 |
|---|---|---|---|
| Anthropic（Claude 3.5） | 扩展上下文窗口（200k tokens）+ 通过系统提示的“宪法”记忆 | 无持久记忆，但极长上下文允许会话级连贯性 | 长文档分析、法律审查 |
| Mistral AI（Mistral Large 2） | 混合：外部向量数据库 + 上下文内记忆token | 基于检索增强生成（RAG）与学习记忆嵌入 | 企业知识管理、个性化助手 |
| MemGPT（UC Berkeley） | 分层记忆（召回/归档/工作三级） | 开源，支持工具使用与自主记忆管理 | 研究、智能体工作流、长程对话 |
| Google DeepMind（Gemini 1.5） | 超长上下文（1M tokens） | 无持久记忆，但巨大上下文窗口 | 视频分析、代码库理解 |
| Cohere（Command R+） | RAG原生架构，显式记忆token | 内置检索与摘要 | 企业搜索、客户支持 |

数据解读： DeepSeek是唯一一家完全放弃持久记忆的主流模型厂商。

时间归档

延伸阅读

常见问题

这次模型发布“DeepSeek V4's Missing Memory Layer: A Strategic Flaw in the Race for Speed”的核心内容是什么？

DeepSeek V4 has sent shockwaves through the AI community with its remarkable inference speed and parameter efficiency, but a deeper investigation by AINews reveals a significant ar…

从“DeepSeek V4 engram memory layer explanation”看，这个模型发布为什么重要？

The engram memory layer, as conceptualized in cognitive neuroscience, refers to a persistent, physically encoded memory trace that can be reactivated and modified over time. In the context of large language models, an en…

围绕“Why DeepSeek removed memory from V4”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。