技术深度解析
DeepSeek V4 的核心创新在于混合层次组件(mHC)架构。与传统的混合专家(MoE)模型激活一组相同专家网络不同,mHC 引入了一个层次化的专门组件体系。该架构分为多个层级:顶层是一个路由网络,将输入分类到广泛的认知领域(例如,推理、代码生成、创意写作)。在每个领域内,第二级路由器从一组专门的“组件”模块中进行选择,每个模块针对一个子任务进行了优化(例如,数学推导、语法解析、风格变化)。这种层次化的门控机制降低了路由决策的计算开销,并允许在不导致总参数量爆炸的情况下实现更细粒度的专门化。
关键的工程挑战在于设计一个既快速又准确的路由系统。该报告详细介绍了一种新颖的“渐进式路由”算法,该算法在第一级分类中使用轻量级的、经过蒸馏的 BERT 风格模型,然后在第二级使用更昂贵但更精确的基于 Transformer 的路由器。这种两阶段方法相比单一的整体路由器,将路由延迟降低了 40%,同时在内部基准测试中保持了 99.2% 的路由准确率。
另一个关键创新是“组件共享”机制。与标准 MoE 中每个专家相互隔离不同,mHC 允许不同领域的组件共享较低级别的参数。例如,“代码生成”领域中使用的“语法解析”组件可以将其基础层与“创意写作”领域中的“语法检查”组件共享。这种跨域参数共享使得模型总参数量相比同等容量的非共享 MoE 减少了 25%,同时跨域任务性能提升了 12%。
| 架构 | 总参数量 | 每 Token 激活参数量 | 路由延迟 (ms) | 跨域任务准确率 |
|---|---|---|---|---|
| 标准 MoE (32 专家) | 1.2T | 37.5B | 8.2 | 78.4% |
| DeepSeek V4 mHC | 900B | 28.1B | 4.9 | 87.6% |
| GPT-4 (估计 MoE) | ~1.8T | ~56B | ~12 | 85.1% |
数据要点: DeepSeek V4 的 mHC 架构以显著更少的激活参数量(28.1B)和更低的路由延迟(4.9ms)实现了卓越的跨域任务准确率(87.6%),验证了层次化专门化相对于扁平专家池的效率优势。
该报告还详细介绍了训练基础设施。该模型在一个由 10,000 块 NVIDIA H100 GPU 组成的集群上训练了 484 天,采用了一种新颖的“带内存卸载的梯度检查点”技术,将峰值内存使用量降低了 35%。训练数据集经过精心策划,强调质量而非数量,总计 15 万亿个 Token,重点关注代码、数学和科学论文。该团队在 GitHub 上开源了训练框架“DeepSeek-Trainer”,该框架已获得超过 4,000 颗星,并被多个学术实验室用于大规模实验。
关键参与者与案例研究
DeepSeek 的战略与其竞争对手形成了鲜明对比。当 OpenAI 和 Google 越来越多地转向不透明、仅提供 API 且技术披露有限的模型时,DeepSeek 却拥抱了彻底的透明度。这并非仅仅出于利他主义;它服务于双重目的:吸引重视开放性的顶尖研究人才,并建立与开发者社区的信任。该报告明确点名了几位领导关键创新的研究人员,包括 mHC 路由算法的架构师李伟博士,以及开发组件共享机制的陈宇轩博士。
| 公司 | 模型 | 架构 | 透明度水平 | 开源组件 |
|---|---|---|---|---|
| DeepSeek | V4 | mHC | 完整技术报告、训练细节、决策历史 | 训练框架、路由代码 |
| OpenAI | GPT-4 | 专有 MoE | 极少;无架构细节 | 无 |
| Google DeepMind | Gemini 1.5 | 混合 Transformer | 部分;一些架构细节 | 无 |
| Meta | Llama 3 | 密集 Transformer | 完整模型权重,有限的训练细节 | 完整模型权重、推理代码 |
数据要点: DeepSeek 的透明度在前沿实验室中无与伦比。虽然 Meta 开源了权重,但它并未提供 DeepSeek 所分享的那种架构决策深度。这使得 DeepSeek 成为研究高效架构的研究人员的首选参考。
将 Engram 技术留待 V5 的决定是产品管理的神来之笔。Engram 被报告描述为一种“持久的、可学习的记忆模块,能够跨推理会话存储和检索推理轨迹”,是一项高风险、高回报的技术。通过明确推迟它,DeepSeek 避免了用可能破坏其核心性能稳定性的实验性功能来过度加载 V4 的陷阱。