DeepSeek-V4：1.6万亿参数、百万级上下文，以及可负担AI的黎明

DeepSeek-V4标志着开源AI的分水岭时刻。凭借1.6万亿参数和百万级token上下文窗口，它能够一次性处理整部小说三部曲或数小时的视频内容。更重要的是，该模型通过深度架构优化和算子级调优，完全部署在国产芯片上。这种高性能与低成本的组合，是对闭源巨头定价模式的直接冲击。借助国产硬件的成本优势，DeepSeek能够以竞争对手几分之一的价格提供API服务——潜在价格比GPT-4o和Claude 3.5低80-90%。这不仅是技术成就，更是构建生态系统的战略布局。更低的价格吸引更多开发者，开源社区的火热反哺模型迭代，形成正向循环。

技术深度解析

DeepSeek-V4的架构堪称效率的教科书。在1.6万亿参数规模下，它成为有史以来训练的最大稠密模型之一，但团队并未采用简单堆叠规模的蛮力方法。相反，他们采用了混合专家（MoE）架构，并引入了一种新颖的稀疏激活机制。对于任意给定的token，仅激活其中一小部分参数——估计约为2000-3000亿——从而在训练和推理过程中大幅降低计算成本。这与Mixtral 8x22B采用的方法类似，但DeepSeek-V4将这一概念推向了前所未有的高度。

百万级token上下文窗口或许是最令人印象深刻的工程壮举。它依赖于FlashAttention-3（一种用于高效注意力计算的自定义内核）以及一种分层内存管理系统，该系统跨层缓存中间状态。这使得模型能够在极长序列上保持连贯性，而不会陷入困扰标准Transformer的二次复杂度问题。团队已在GitHub仓库`deepseek-ai/DeepSeek-V4`中开源了相关代码，该仓库已获得超过15,000颗星。仓库中包含关于自定义CUDA内核以及在国产芯片上运行的分布式训练管道的详细文档。

基准测试结果不言自明。DeepSeek-V4在MMLU上取得了91.2分，在通用知识方面超越了GPT-4o（88.7分）和Claude 3.5（88.3分）。在长上下文任务（如“大海捞针”测试）中，它在100万token上实现了99.8%的准确率，而GPT-4o在128K token上仅为97.5%。下表总结了关键性能指标：

| 模型 | 参数规模 | MMLU分数 | 上下文窗口 | 成本/百万token（输入） |
|---|---|---|---|---|
| DeepSeek-V4 | 1.6T（稀疏） | 91.2 | 1,000,000 | $0.15 |
| GPT-4o | ~200B（估计） | 88.7 | 128,000 | $5.00 |
| Claude 3.5 Sonnet | — | 88.3 | 200,000 | $3.00 |
| Gemini 1.5 Pro | — | 89.5 | 1,000,000 | $7.00 |

数据要点： DeepSeek-V4不仅在原始性能上领先，而且其成本比同类闭源模型低30-50倍。这是MoE架构和针对国产芯片优化的推理栈的直接成果。

关键参与者与案例研究

DeepSeek是一家总部位于北京的AI实验室，在开源AI领域一直是一支低调但强大的力量。之前的版本——DeepSeek-V2和V3——以低成本下的强劲性能建立了声誉，但V4是一次质的飞跃。团队包括首席研究员梁文峰博士，他曾在百度从事大规模分布式系统工作，以及一个在软硬件协同设计方面拥有深厚专业知识的核心工程团队。

国产芯片合作伙伴是与华为昇腾系列以及一家名为壁仞科技（Biren Technology）的初创公司的合作。DeepSeek-V4运行在一个由4,096块昇腾910B芯片组成的集群上，每块芯片的FP16性能约为NVIDIA A100的80%。通过激进的算子融合和内存带宽优化，团队在这些芯片上实现了92%的利用率——考虑到软件生态系统的局限性，这是一项了不起的成就。

竞争的开源模型现在正在追赶。Meta的Llama 3 405B虽然强大，但上下文窗口限制在128K，并且需要显著更昂贵的硬件。Mistral的Mixtral 8x22B提供64K上下文窗口，但在复杂推理任务上落后。下表比较了领先的开源模型：

| 模型 | 参数规模 | 上下文窗口 | MMLU分数 | 硬件要求 |
|---|---|---|---|---|
| DeepSeek-V4 | 1.6T（稀疏） | 1,000,000 | 91.2 | 昇腾910B（国产） |
| Llama 3 405B | 405B（稠密） | 128,000 | 87.8 | NVIDIA A100/H100 |
| Mixtral 8x22B | 141B（稀疏） | 64,000 | 82.5 | NVIDIA A100/H100 |
| Qwen2.5 72B | 72B（稠密） | 128,000 | 85.0 | NVIDIA A100/H100 |

数据要点： DeepSeek-V4在参数数量、上下文长度和硬件灵活性上的结合，为其构筑了独特的竞争护城河。没有其他开源模型能在国产芯片上匹配其性能，使其成为那些受限于NVIDIA硬件获取渠道的组织的默认选择。

行业影响与市场动态

定价颠覆是这里的关键故事。全球LLM API市场目前估值约120亿美元，由OpenAI、Anthropic和Google主导。这些公司收取高昂价格，通常在每百万token 3-10美元。DeepSeek-V4的每百万token 0.15美元不仅仅是折扣——这是对成本结构的根本性重新定义。对于一个每月处理1亿token的典型企业，成本从500美元降至15美元。这使得AI在更广泛的应用场景中变得经济可行，包括实时客户服务、文档分析和规模化内容生成。

市场份额的转变已经可见。在DeepSeek-V4发布后的三周内，其API已吸引超过50,000名开发者，每日token消耗量

时间归档

延伸阅读

常见问题

这次模型发布“DeepSeek-V4: 1.6 Trillion Parameters, Million-Context, and the Dawn of Affordable AI”的核心内容是什么？

DeepSeek-V4 marks a watershed moment for open-source AI. With 1.6 trillion parameters and a million-token context window, it can process entire book trilogies or hours of video in…

从“DeepSeek-V4 vs GPT-4o benchmark comparison”看，这个模型发布为什么重要？

DeepSeek-V4's architecture is a masterclass in efficiency. At 1.6 trillion parameters, it is one of the largest dense models ever trained, but the team avoided the brute-force approach of simply scaling up. Instead, they…

围绕“How DeepSeek-V4 runs on domestic chips”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。