DeepSeek V4 重写AI经济学：开源架构击败闭源巨头

2026年4月25日 10:32 AINews Hacker News April 2026

来源：Hacker News DeepSeek V4 open-source AI mixture of experts 归档：April 2026

DeepSeek V4 并非一次常规升级，而是一次根本性的架构重写。它采用动态稀疏注意力机制与重新设计的混合专家路由器，在多项任务上匹敌甚至超越最昂贵的闭源模型，同时将推理成本降低一个数量级。

DeepSeek V4 代表了开源大语言模型的一次范式转变。通过用动态稀疏注意力系统取代标准的全局注意力机制，并彻底改造混合专家（MoE）路由逻辑，该模型在推理效率上较前代提升5-10倍，同时在基准测试中取得与 GPT-4o 和 Claude 3.5 Sonnet 相媲美的成绩。其处理128K token上下文时近乎线性的计算成本扩展能力，直接挑战了闭源厂商围绕高端推理构建的经济护城河。DeepSeek 决定以宽松许可证发布完整架构，这是一项战略举措，将全球开发者社区转化为分布式研发引擎。这不仅仅是一次技术发布，更是一种宣言。

技术深度解析

DeepSeek V4 的核心创新在于两个紧密耦合的架构变革：动态稀疏注意力（DSA） 和 重构的混合专家（MoE）路由系统。

动态稀疏注意力 摒弃了标准 Transformer 中使用的二次复杂度全局注意力模式。取而代之的是，它采用一个学习到的门控机制，为每个 token 预测键值缓存中实际相关的子集。这不是静态稀疏模式（如窗口注意力或固定步长模式）；稀疏性是*动态的*——模型根据输入实时决定关注哪些 token。门控网络是一个轻量级的两层 MLP，运行时间为 O(n)，随后的稀疏注意力计算时间为 O(n * k)，其中 k 是一个小常数（通常为 64-128）。与完整注意力相比，这在处理 128K token 序列时理论上可减少 10 倍的 FLOPs。

关键之处在于，门控网络通过直通估计器进行端到端训练，以处理注意力目标的离散选择。DeepSeek 团队发布的技术报告（可在 GitHub 上的 `deepseek-ai/DSA-paper` 仓库获取，已获得 4200 颗星）显示，在 LongBench 评估套件上，门控准确率超过 95%，意味着模型几乎不会遗漏关键 token。

重构的 MoE 路由器：传统的 MoE 模型（如 Mixtral 8x7B）使用 top-k 路由，将每个 token 发送给固定数量的专家（通常为 2 个）。这会导致负载不均和专家坍缩，即少数专家处理大部分 token。DeepSeek V4 引入了容量因子感知路由机制。每个专家都有一个动态容量，根据当前批次的 token 分布进行调整。路由器通过一个辅助损失进行训练，该损失惩罚专家利用率方差，确保所有专家大致被平等使用。结果是，与 Mixtral 相比，专家利用率提升了 40%，直接转化为相同总参数量下更高的模型质量。

| 模型 | 注意力类型 | MoE 路由器 | 上下文长度 | 推理成本（128K tokens） | MMLU | HumanEval |
|---|---|---|---|---|---|---|
| DeepSeek V4 (67B 激活) | 动态稀疏 | 容量因子感知 | 128K | $0.12 | 89.1 | 82.4 |
| Mixtral 8x22B (39B 激活) | 完整（滑动窗口） | Top-2 静态 | 32K | $0.45 | 77.8 | 70.1 |
| GPT-4o（估计 200B 激活） | 完整（稀疏 MoE） | 专有 | 128K | $5.00 | 88.7 | 81.0 |
| Claude 3.5 Sonnet | 完整 | 专有 | 200K | $3.00 | 88.3 | 79.6 |

数据要点： DeepSeek V4 在 128K token 推理运行中，相比 GPT-4o 实现了 97.6% 的成本降低，同时在 MMLU 上得分更高（89.1 对 88.7）。效率提升并非边际性的——这是一次重新定义成本-性能前沿的阶跃式变革。

该模型还为稀疏头引入了多查询注意力变体，与标准多头注意力相比，将 KV 缓存内存减少了 8 倍。这使得在单块 A100 80GB GPU 上部署 67B 参数模型进行推理成为可能，这对于此前同等规模的模型来说是不可能完成的任务。

关键参与者与案例研究

由梁文锋创立的 DeepSeek 已迅速崛起为开源 AI 领域的领军力量。公司以约 150 名研究员和工程师的精干团队运营，与 OpenAI 或 Anthropic 雇佣的数千人形成鲜明对比。DeepSeek V4 的开发由 High-Flyer 量化对冲基金资助，这赋予了其独特的财务独立性，使其能够优先考虑长期研究而非短期变现。

多家公司和项目已在集成或适配 DeepSeek V4：

- Together AI 宣布为 V4 提供托管推理端点，称其在长上下文任务上相比 GPT-4o 具有 8 倍的成本优势。来自法律文档审查公司 Kira Systems 的早期客户反馈显示，每份文档的分析成本降低了 40%。
- Hugging Face 上，V4 模型卡成为其历史上增长最快的仓库，在最初 48 小时内下载量超过 50,000 次。
- LangChain 发布了专用集成，利用 V4 的稀疏注意力支持智能体工作流，声称工具调用循环速度提升了 3 倍。

| 竞争对手 | 模型 | 开源？ | 成本/1M tokens（输入） | 上下文窗口 | 智能体框架支持 |
|---|---|---|---|---|---|
| DeepSeek | V4 | 是（MIT） | $0.06 | 128K | 原生（LangChain, AutoGPT） |
| Meta | Llama 3.1 405B | 是（自定义） | $0.80 | 128K | 第三方 |
| Mistral | Mixtral 8x22B | 是（Apache 2.0） | $0.45 | 32K | 第三方 |
| OpenAI | GPT-4o | 否 | $5.00 | 128K | 原生 |
| Anthropic | Claude 3.5 Sonnet | 否 | $3.00 | 200K | 原生 |

数据要点： DeepSeek V4 不仅比每个闭源竞争对手便宜 50-80 倍，还提供了最佳的开源许可证（MIT）以及对最流行智能体框架的原生支持。这种组合

时间归档

常见问题

这次模型发布“DeepSeek V4 Rewrites AI Economics: Open-Source Architecture Beats Closed Giants”的核心内容是什么？

DeepSeek V4 represents a paradigm shift in open-source large language models. By replacing the standard global attention mechanism with a dynamic sparse attention system and overha…

从“DeepSeek V4 vs GPT-4o cost comparison”看，这个模型发布为什么重要？

DeepSeek V4's core innovation lies in two tightly coupled architectural changes: dynamic sparse attention (DSA) and a reconstructed mixture-of-experts (MoE) routing system. Dynamic Sparse Attention abandons the quadratic…

围绕“dynamic sparse attention implementation details”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

DeepSeek V4 重写AI经济学：开源架构击败闭源巨头

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题