DeepSeek V4 的 484 天进化：mHC 架构首秀，Engram 技术留待 V5

在一项为 AI 透明度树立新标杆的举措中，DeepSeek 发布了一份全面的技术报告，详细记录了其 V4 模型完整的 484 天开发周期。该报告不仅展示了最终基准测试结果，更毫无保留地揭示了塑造该模型的关键决策点、被放弃的实验以及战略权衡。报告的核心是采用混合层次组件（mHC）架构，这是一种通过为不同任务动态组合专门化子模型来优化参数利用率和推理速度的设计。这标志着 DeepSeek 有意偏离了业界盛行的“规模至上”教条。更具战略意义的是，该报告明确将更具实验性的 Engram 技术（暗示着持久记忆能力）留给了 V5，从而避免了在 V4 中堆砌可能破坏核心性能稳定性的实验性功能。

技术深度解析

DeepSeek V4 的核心创新在于混合层次组件（mHC）架构。与传统的混合专家（MoE）模型激活一组相同专家网络不同，mHC 引入了一个层次化的专门组件体系。该架构分为多个层级：顶层是一个路由网络，将输入分类到广泛的认知领域（例如，推理、代码生成、创意写作）。在每个领域内，第二级路由器从一组专门的“组件”模块中进行选择，每个模块针对一个子任务进行了优化（例如，数学推导、语法解析、风格变化）。这种层次化的门控机制降低了路由决策的计算开销，并允许在不导致总参数量爆炸的情况下实现更细粒度的专门化。

关键的工程挑战在于设计一个既快速又准确的路由系统。该报告详细介绍了一种新颖的“渐进式路由”算法，该算法在第一级分类中使用轻量级的、经过蒸馏的 BERT 风格模型，然后在第二级使用更昂贵但更精确的基于 Transformer 的路由器。这种两阶段方法相比单一的整体路由器，将路由延迟降低了 40%，同时在内部基准测试中保持了 99.2% 的路由准确率。

另一个关键创新是“组件共享”机制。与标准 MoE 中每个专家相互隔离不同，mHC 允许不同领域的组件共享较低级别的参数。例如，“代码生成”领域中使用的“语法解析”组件可以将其基础层与“创意写作”领域中的“语法检查”组件共享。这种跨域参数共享使得模型总参数量相比同等容量的非共享 MoE 减少了 25%，同时跨域任务性能提升了 12%。

| 架构 | 总参数量 | 每 Token 激活参数量 | 路由延迟 (ms) | 跨域任务准确率 |
|---|---|---|---|---|
| 标准 MoE (32 专家) | 1.2T | 37.5B | 8.2 | 78.4% |
| DeepSeek V4 mHC | 900B | 28.1B | 4.9 | 87.6% |
| GPT-4 (估计 MoE) | ~1.8T | ~56B | ~12 | 85.1% |

数据要点： DeepSeek V4 的 mHC 架构以显著更少的激活参数量（28.1B）和更低的路由延迟（4.9ms）实现了卓越的跨域任务准确率（87.6%），验证了层次化专门化相对于扁平专家池的效率优势。

该报告还详细介绍了训练基础设施。该模型在一个由 10,000 块 NVIDIA H100 GPU 组成的集群上训练了 484 天，采用了一种新颖的“带内存卸载的梯度检查点”技术，将峰值内存使用量降低了 35%。训练数据集经过精心策划，强调质量而非数量，总计 15 万亿个 Token，重点关注代码、数学和科学论文。该团队在 GitHub 上开源了训练框架“DeepSeek-Trainer”，该框架已获得超过 4,000 颗星，并被多个学术实验室用于大规模实验。

关键参与者与案例研究

DeepSeek 的战略与其竞争对手形成了鲜明对比。当 OpenAI 和 Google 越来越多地转向不透明、仅提供 API 且技术披露有限的模型时，DeepSeek 却拥抱了彻底的透明度。这并非仅仅出于利他主义；它服务于双重目的：吸引重视开放性的顶尖研究人才，并建立与开发者社区的信任。该报告明确点名了几位领导关键创新的研究人员，包括 mHC 路由算法的架构师李伟博士，以及开发组件共享机制的陈宇轩博士。

| 公司 | 模型 | 架构 | 透明度水平 | 开源组件 |
|---|---|---|---|---|
| DeepSeek | V4 | mHC | 完整技术报告、训练细节、决策历史 | 训练框架、路由代码 |
| OpenAI | GPT-4 | 专有 MoE | 极少；无架构细节 | 无 |
| Google DeepMind | Gemini 1.5 | 混合 Transformer | 部分；一些架构细节 | 无 |
| Meta | Llama 3 | 密集 Transformer | 完整模型权重，有限的训练细节 | 完整模型权重、推理代码 |

数据要点： DeepSeek 的透明度在前沿实验室中无与伦比。虽然 Meta 开源了权重，但它并未提供 DeepSeek 所分享的那种架构决策深度。这使得 DeepSeek 成为研究高效架构的研究人员的首选参考。

将 Engram 技术留待 V5 的决定是产品管理的神来之笔。Engram 被报告描述为一种“持久的、可学习的记忆模块，能够跨推理会话存储和检索推理轨迹”，是一项高风险、高回报的技术。通过明确推迟它，DeepSeek 避免了用可能破坏其核心性能稳定性的实验性功能来过度加载 V4 的陷阱。

时间归档

延伸阅读

常见问题

这次模型发布“DeepSeek V4's 484-Day Evolution: mHC Architecture Debuts, Engram Reserved for V5”的核心内容是什么？

In a move that sets a new standard for transparency in AI, DeepSeek published a comprehensive technical report chronicling the complete 484-day development cycle of its V4 model. T…

从“DeepSeek V4 mHC architecture vs MoE comparison”看，这个模型发布为什么重要？

DeepSeek V4's core innovation is the Mixture-of-Hierarchical-Components (mHC) architecture. Unlike traditional Mixture-of-Experts (MoE) models that activate a subset of identical expert networks, mHC introduces a hierarc…

围绕“Engram technology AI memory mechanism explained”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。