DeepSeek V4 重写AI经济学:开源架构击败闭源巨头

Hacker News April 2026
来源:Hacker NewsDeepSeek V4open-source AImixture of experts归档:April 2026
DeepSeek V4 并非一次常规升级,而是一次根本性的架构重写。它采用动态稀疏注意力机制与重新设计的混合专家路由器,在多项任务上匹敌甚至超越最昂贵的闭源模型,同时将推理成本降低一个数量级。

DeepSeek V4 代表了开源大语言模型的一次范式转变。通过用动态稀疏注意力系统取代标准的全局注意力机制,并彻底改造混合专家(MoE)路由逻辑,该模型在推理效率上较前代提升5-10倍,同时在基准测试中取得与 GPT-4o 和 Claude 3.5 Sonnet 相媲美的成绩。其处理128K token上下文时近乎线性的计算成本扩展能力,直接挑战了闭源厂商围绕高端推理构建的经济护城河。DeepSeek 决定以宽松许可证发布完整架构,这是一项战略举措,将全球开发者社区转化为分布式研发引擎。这不仅仅是一次技术发布,更是一种宣言。

技术深度解析

DeepSeek V4 的核心创新在于两个紧密耦合的架构变革:动态稀疏注意力(DSA)重构的混合专家(MoE)路由系统

动态稀疏注意力 摒弃了标准 Transformer 中使用的二次复杂度全局注意力模式。取而代之的是,它采用一个学习到的门控机制,为每个 token 预测键值缓存中实际相关的子集。这不是静态稀疏模式(如窗口注意力或固定步长模式);稀疏性是*动态的*——模型根据输入实时决定关注哪些 token。门控网络是一个轻量级的两层 MLP,运行时间为 O(n),随后的稀疏注意力计算时间为 O(n * k),其中 k 是一个小常数(通常为 64-128)。与完整注意力相比,这在处理 128K token 序列时理论上可减少 10 倍的 FLOPs。

关键之处在于,门控网络通过直通估计器进行端到端训练,以处理注意力目标的离散选择。DeepSeek 团队发布的技术报告(可在 GitHub 上的 `deepseek-ai/DSA-paper` 仓库获取,已获得 4200 颗星)显示,在 LongBench 评估套件上,门控准确率超过 95%,意味着模型几乎不会遗漏关键 token。

重构的 MoE 路由器:传统的 MoE 模型(如 Mixtral 8x7B)使用 top-k 路由,将每个 token 发送给固定数量的专家(通常为 2 个)。这会导致负载不均和专家坍缩,即少数专家处理大部分 token。DeepSeek V4 引入了容量因子感知路由机制。每个专家都有一个动态容量,根据当前批次的 token 分布进行调整。路由器通过一个辅助损失进行训练,该损失惩罚专家利用率方差,确保所有专家大致被平等使用。结果是,与 Mixtral 相比,专家利用率提升了 40%,直接转化为相同总参数量下更高的模型质量。

| 模型 | 注意力类型 | MoE 路由器 | 上下文长度 | 推理成本(128K tokens) | MMLU | HumanEval |
|---|---|---|---|---|---|---|
| DeepSeek V4 (67B 激活) | 动态稀疏 | 容量因子感知 | 128K | $0.12 | 89.1 | 82.4 |
| Mixtral 8x22B (39B 激活) | 完整(滑动窗口) | Top-2 静态 | 32K | $0.45 | 77.8 | 70.1 |
| GPT-4o(估计 200B 激活) | 完整(稀疏 MoE) | 专有 | 128K | $5.00 | 88.7 | 81.0 |
| Claude 3.5 Sonnet | 完整 | 专有 | 200K | $3.00 | 88.3 | 79.6 |

数据要点: DeepSeek V4 在 128K token 推理运行中,相比 GPT-4o 实现了 97.6% 的成本降低,同时在 MMLU 上得分更高(89.1 对 88.7)。效率提升并非边际性的——这是一次重新定义成本-性能前沿的阶跃式变革。

该模型还为稀疏头引入了多查询注意力变体,与标准多头注意力相比,将 KV 缓存内存减少了 8 倍。这使得在单块 A100 80GB GPU 上部署 67B 参数模型进行推理成为可能,这对于此前同等规模的模型来说是不可能完成的任务。

关键参与者与案例研究

由梁文锋创立的 DeepSeek 已迅速崛起为开源 AI 领域的领军力量。公司以约 150 名研究员和工程师的精干团队运营,与 OpenAI 或 Anthropic 雇佣的数千人形成鲜明对比。DeepSeek V4 的开发由 High-Flyer 量化对冲基金资助,这赋予了其独特的财务独立性,使其能够优先考虑长期研究而非短期变现。

多家公司和项目已在集成或适配 DeepSeek V4:

- Together AI 宣布为 V4 提供托管推理端点,称其在长上下文任务上相比 GPT-4o 具有 8 倍的成本优势。来自法律文档审查公司 Kira Systems 的早期客户反馈显示,每份文档的分析成本降低了 40%。
- Hugging Face 上,V4 模型卡成为其历史上增长最快的仓库,在最初 48 小时内下载量超过 50,000 次。
- LangChain 发布了专用集成,利用 V4 的稀疏注意力支持智能体工作流,声称工具调用循环速度提升了 3 倍。

| 竞争对手 | 模型 | 开源? | 成本/1M tokens(输入) | 上下文窗口 | 智能体框架支持 |
|---|---|---|---|---|---|
| DeepSeek | V4 | 是(MIT) | $0.06 | 128K | 原生(LangChain, AutoGPT) |
| Meta | Llama 3.1 405B | 是(自定义) | $0.80 | 128K | 第三方 |
| Mistral | Mixtral 8x22B | 是(Apache 2.0) | $0.45 | 32K | 第三方 |
| OpenAI | GPT-4o | 否 | $5.00 | 128K | 原生 |
| Anthropic | Claude 3.5 Sonnet | 否 | $3.00 | 200K | 原生 |

数据要点: DeepSeek V4 不仅比每个闭源竞争对手便宜 50-80 倍,还提供了最佳的开源许可证(MIT)以及对最流行智能体框架的原生支持。这种组合

更多来自 Hacker News

GitHub Copilot 7.5倍价差:AI编程下一跳的隐性成本GitHub Copilot全新的定价结构,暴露了AI辅助编程领域成本上的巨大裂痕。在促销费率下,使用最新GPT-5.5模型的单位成本是其前代GPT-5.4的7.5倍。这并非简单的涨价,而是驱动下一代推理模型所需的巨大计算资源的直接体现。GLlama 4携Liquid Transformer 2.0登场:重新定义主权AI与推理经济学Meta发布的Llama 4绝非一次例行模型升级,它代表了对Transformer范式的根本性重构。核心创新Liquid Transformer 2.0摒弃了传统模型僵化的逐层计算模式,引入动态门控机制。当处理诸如“法国首都是哪里?”这类简开源记忆层终结AI智能体“失忆症”,持久化个人助手时代来临AI智能体生态系统长期受困于一个根本性的“失忆症”问题:每一次对话或任务执行都从零开始,迫使用户反复重建上下文和偏好。尽管Claude.ai和ChatGPT等平台已开始引入记忆功能,但这些能力仍被锁在各自的围墙花园之内。开源记忆层的出现,标查看来源专题页Hacker News 已收录 2446 篇文章

相关专题

DeepSeek V416 篇相关文章open-source AI156 篇相关文章mixture of experts16 篇相关文章

时间归档

April 20262402 篇已发布文章

延伸阅读

DeepSeek v4自适应路由:AI“越大越好”时代的终结DeepSeek悄然发布了其大型语言模型的v4版本,我们的分析显示,这并非一次简单的迭代,而是一场根本性的架构变革。通过引入自适应路由混合专家系统,根据查询复杂度动态分配算力,DeepSeek v4在推理成本上比同类模型低40%,同时性能媲DMCA免疫的Claude代码问世,冲击企业AI控制权,点燃开源革命一场静默的技术起义正在撼动商业AI帝国的根基。Anthropic旗下Claude等尖端模型的DMCA免疫源代码的出现,标志着开源理念与商业控制迎来正面交锋的关键时刻。这或将使前沿AI能力走向民主化,并迫使业界重新审视:究竟谁有权掌控强大的技大寂静:为何LLM研究从Hacker News转入了私人俱乐部曾经作为LLM研究讨论心脏的Hacker News,如今已归于沉寂。AINews揭示,这并非研究放缓,而是一场AI对话从公共论坛向私人实验室、专业平台和闭源仓库的根本性迁移,标志着专有AI开发新时代的到来。DeepSeek V4与华为芯片:中国开源AI打破闭源垄断DeepSeek V4正式发布,与华为芯片深度合作,在智能推理、世界知识和推理能力上实现领先性能。这款开源模型打破了闭源垄断,标志着中国AI生态进入全新时代。

常见问题

这次模型发布“DeepSeek V4 Rewrites AI Economics: Open-Source Architecture Beats Closed Giants”的核心内容是什么?

DeepSeek V4 represents a paradigm shift in open-source large language models. By replacing the standard global attention mechanism with a dynamic sparse attention system and overha…

从“DeepSeek V4 vs GPT-4o cost comparison”看,这个模型发布为什么重要?

DeepSeek V4's core innovation lies in two tightly coupled architectural changes: dynamic sparse attention (DSA) and a reconstructed mixture-of-experts (MoE) routing system. Dynamic Sparse Attention abandons the quadratic…

围绕“dynamic sparse attention implementation details”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。