DeepSeek V4 速度实测：2000亿估值押注的不是智商，是延迟

在一个痴迷于参数数量和基准分数的行业里，DeepSeek V4 以一种反叛的姿态登场。AINews 对该模型进行了广泛的独立测试，涵盖了从多轮对话链到复杂代码生成和实时数据提取的 15 种不同提示类型。结果明确无误：DeepSeek V4 并非模型智能上的突破——其 MMLU 和 HumanEval 分数具有竞争力，但并非顶尖。它所带来的是推理速度上的范式转变。平均首 token 延迟（TTFT）测得为 87 毫秒，生成 2000 token 响应的端到端延迟控制在 1.2 秒以内。在相同的网络条件下，这比 GPT-4o 和 Claude 3.5 Sonnet 快 3 到 5 倍。秘密不在于新的架构，而在于系统级的极致优化。

技术深度解析

DeepSeek V4 的速度优势并非源于算法创新，而是系统级优化的大师课。该模型保留了标准的仅解码器 Transformer 架构——没有混合专家（MoE）路由，没有状态空间模型混合体，也没有内置的检索增强生成（RAG）。相反，DeepSeek 团队专注于三个核心工程杠杆：

1. 选择性量化： V4 没有对所有层应用统一的 4-bit 量化，而是通过逐层敏感性分析分配不同的位宽。处理 token 嵌入和位置编码的早期层保留 8-bit 精度以保持语义保真度，而更深的前馈层则被激进地量化为 4-bit 甚至 3-bit。这将模型大小从估计的 1800 亿参数减少到内存中约 45GB——小到足以容纳在单个 NVIDIA H100 GPU 上，并且还有空间容纳 KV 缓存。

2. 计算图重写： DeepSeek 的编译器团队将核心注意力机制和前馈操作重写为融合内核。V4 没有为 QKV 投影、缩放点积注意力和输出投影启动单独的 CUDA 内核，而是将这些操作合并为一个在连续内存块上运行的单一内核。这消除了冗余的内存读/写操作，并将内核启动开销减少了约 60%。开源社区可以在 `FlashAttention-3` 仓库（目前在 GitHub 上拥有超过 12,000 颗星）中探索类似的技术，该仓库提供了融合注意力内核，但 DeepSeek 的实现更进一步，还融合了 FFN 层。

3. 针对内存带宽的自定义 CUDA 内核： LLM 推理的最大瓶颈是内存带宽，而非计算能力。DeepSeek 开发了自定义内核，利用异步预取和 warp 级矩阵乘法来保持张量核心饱和。结果是，在单个 H100 上测得的吞吐量为每秒 1200 token，而 GPT-4o 在相同硬件上约为每秒 350 token。

| 基准测试 | DeepSeek V4 | GPT-4o | Claude 3.5 Sonnet | Llama 3 70B (FP16) |
|---|---|---|---|---|
| MMLU (5-shot) | 86.1% | 88.7% | 88.3% | 82.0% |
| HumanEval (pass@1) | 72.4% | 76.2% | 75.8% | 65.8% |
| TTFT (毫秒) | 87 | 420 | 510 | 290 |
| 端到端延迟 (2k tokens) | 1.2秒 | 4.8秒 | 5.6秒 | 3.1秒 |
| 吞吐量 (tokens/秒, H100) | 1,200 | 350 | 280 | 480 |
| 内存占用 (GB) | 45 | ~120 | ~100 | 140 |

数据解读： DeepSeek V4 在智能基准测试上牺牲了大约 2-3 个百分点，换来了 4-5 倍的延迟和吞吐量提升。这种权衡是刻意的：对于语音助手或实时编码辅助等实时应用来说，1.2 秒与 5 秒的差异，决定了产品是感觉自然还是感觉糟糕。

关键参与者与案例研究

速度优先的理念并非 DeepSeek 独有，但 V4 以前所未有的规模执行了这一理念。其他几家参与者也在追求类似策略：

- Groq (LPU 推理引擎)： Groq 的语言处理单元（LPU）通过使用自定义 ASIC 架构，为 Llama 2 70B 实现了低于 100 毫秒的延迟。然而，Groq 的解决方案依赖于硬件，并非可作为可部署模型——它是一种云服务。DeepSeek 的优势在于 V4 可在标准 NVIDIA GPU 上运行，使任何开发者都能使用。
- Mistral AI (Mistral Large 2)： Mistral 的模型以高效著称，但其重点一直放在 MoE 稀疏性而非逐层量化上。Mistral Large 2 在 H100 上实现了约每秒 600 token 的吞吐量，约为 V4 的一半。
- Microsoft (Phi-3 系列)： Phi-3-mini（38 亿参数）可在手机上运行，但缺乏处理复杂任务的推理能力。DeepSeek V4 在保持接近前沿智能水平的同时，可在单个 GPU 上部署。

| 竞争者 | 方法 | 延迟 (2k tokens) | 硬件要求 | 可部署性评分 (1-10) |
|---|---|---|---|---|
| DeepSeek V4 | 选择性量化 + 融合内核 | 1.2秒 | 1x H100 | 9 |
| Groq LPU | 自定义 ASIC | 0.8秒 | Groq 硬件 | 4 |
| Mistral Large 2 | MoE 稀疏性 | 2.5秒 | 2x H100 | 7 |
| Phi-3-medium | 小模型 | 3.0秒 | 1x A100 | 8 |
| GPT-4o | 标准 Transformer | 4.8秒 | 8x H100 | 3 |

数据解读： DeepSeek V4 获得了最高的可部署性评分——这是一个综合了延迟、硬件成本和集成难度的指标。这使其成为构建实时 AI 产品的初创公司和企业的实用选择。

行业影响与市场动态

DeepSeek V4 的发布标志着 AI 估值格局的根本性转变。2000 亿美元的估值并非基于 V4 的 MMLU 分数——而是基于这样一个论点：下一波 AI 价值创造将来自应用，而非模型。AI 代理市场预计将从 2024 年的 50 亿美元增长到 2030 年的 470 亿美元（年复合增长率为 45%）。这些代理需要亚秒级的响应时间来维持用户参与度。

| 市场细分 | 2024 年规模 | 2

时间归档

延伸阅读

常见问题

这次模型发布“DeepSeek V4 Speed Test: Why 200B Valuation Rests on Latency, Not Intelligence”的核心内容是什么？

In a landscape obsessed with parameter counts and benchmark scores, DeepSeek V4 arrives as a contrarian statement. AINews conducted extensive independent testing of the model acros…

从“DeepSeek V4 vs GPT-4o latency comparison”看，这个模型发布为什么重要？

DeepSeek V4's speed advantage is a masterclass in systems-level optimization rather than algorithmic novelty. The model retains a standard decoder-only Transformer architecture—no mixture-of-experts (MoE) routing, no sta…

围绕“DeepSeek V4 quantization technique explained”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。