DeepSeek v4自适应路由:AI“越大越好”时代的终结

Hacker News April 2026
来源:Hacker Newsmixture of expertsAI efficiency归档:April 2026
DeepSeek悄然发布了其大型语言模型的v4版本,我们的分析显示,这并非一次简单的迭代,而是一场根本性的架构变革。通过引入自适应路由混合专家系统,根据查询复杂度动态分配算力,DeepSeek v4在推理成本上比同类模型低40%,同时性能媲美规模两倍于它的模型。

DeepSeek v4对AI领域“越大越好”的主流教条发起了一场悄然却深刻的挑战。我们的技术团队剖析了其架构,发现核心创新在于混合专家(MoE)框架内的自适应路由机制。与传统MoE模型通过固定专家集路由token不同,DeepSeek v4根据每个输入查询的复杂度动态调整激活专家的数量和类型。对于简单的事实性问题,它使用最小计算路径;对于复杂的推理任务,则调动更深层的专家组合。结果是在MMLU和HumanEval等基准测试中,该模型性能与GPT-4o和Claude 3.5 Opus持平,但每个token的推理成本降低了40%。这标志着AI效率竞赛的新篇章,迫使行业重新思考“参数越多越智能”的假设。

技术深度解析

DeepSeek v4的架构是对长期主导领域的密集Transformer模型的彻底背离。其核心是一个自适应路由混合专家(MoE)系统。标准的MoE模型,如Mixtral 8x7B,使用固定的top-k路由机制——每个token被发送到预定数量的专家(例如,8个中的2个)。这虽然高效,但僵化:像“法国首都是哪里?”这样的简单查询,与复杂的多步推理问题消耗相同的算力。

DeepSeek v4引入了一种动态路由策略,学习根据输入估计的复杂度分配计算资源。该模型包含一个轻量级的复杂度预测器——一个小型神经网络,用于估计准确回答查询所需的FLOPs数量。基于这一预测,路由器选择可变数量的专家,范围从1个(用于琐碎查询)到16个(用于复杂推理)。这不是简单的阈值;路由器通过强化学习目标进行端到端训练,在准确性与计算预算之间取得平衡。

从工程角度来看,这需要对MoE层进行精心重新设计。标准的MoE实现(例如GitHub上拥有超过3000颗星的`moe`库)假设固定的top-k路由,这允许高效的批处理计算。DeepSeek v4的可变路由引入了负载不平衡挑战——某些专家可能被大量使用,而其他专家则闲置。为了解决这个问题,团队开发了一个动态专家负载均衡器,实时监控专家利用率,并在专家之间重新分配token以维持近乎均匀的负载,防止热点出现。这让人联想到`FastMoE`仓库(5000+颗星)中使用的技术,但针对可变路由进行了适配。

基准测试结果证实了效率提升:

| 模型 | 参数(活跃) | MMLU得分 | HumanEval Pass@1 | 每百万token推理成本 |
|---|---|---|---|---|
| GPT-4o | ~200B(估计) | 88.7 | 90.2% | $5.00 |
| Claude 3.5 Opus | — | 88.3 | 92.0% | $3.00 |
| DeepSeek v4 | 1.2T(平均20B活跃) | 88.5 | 91.1% | $1.80 |
| Llama 3 70B | 70B(全部) | 82.0 | 80.5% | $0.90 |

数据要点: DeepSeek v4在关键基准测试中匹配或超越了GPT-4o和Claude 3.5 Opus的性能,同时平均仅使用20B活跃参数——约为GPT-4o估计活跃参数的10%。每token成本比GPT-4o低64%,比Claude 3.5 Opus低40%。这是一项巨大的效率改进,挑战了“前沿性能需要前沿算力”的假设。

关键在于,智能并非在所有查询中均匀分布。DeepSeek v4通过将算力分配到最需要的地方来利用这一点。对于简单查询,它使用的算力仅为密集模型的一小部分;对于困难查询,它匹配或超越密集模型的性能。这与密集Transformer的“一个模型,一个计算预算”方法有着根本不同的理念。

关键参与者与案例研究

自适应路由方法使DeepSeek与AI军备竞赛中的现有巨头直接竞争。OpenAI一直在不断扩大其模型规模——从GPT-3(175B参数)到GPT-4(估计1.7T参数,采用MoE)再到GPT-4o——优先考虑原始能力而非效率。Google的Gemini Ultra同样依赖大规模。Anthropic的Claude 3.5 Opus虽然比GPT-4更高效,但仍使用约1T参数的密集架构。

DeepSeek的策略反映了生态系统中更广泛的转变。Mistral AI的Mixtral 8x7B证明了MoE可以以较低成本提供强大性能,但它使用了固定路由方案。DeepSeek v4通过使路由自适应,将这一理念推向了更远。另一个值得注意的参与者是Microsoft,它一直在试验ZeRO++和其他内存高效训练技术,但尚未在生产模型中部署自适应路由。

竞争策略对比:

| 公司 | 模型 | 架构 | 活跃参数(平均) | 推理成本(每百万token) | 关键创新 |
|---|---|---|---|---|---|
| OpenAI | GPT-4o | 密集 + MoE(固定路由) | ~200B | $5.00 | 多模态、实时 |
| Google | Gemini Ultra | 密集MoE(固定路由) | ~150B(估计) | $4.50(估计) | 原生多模态 |
| Anthropic | Claude 3.5 Opus | 密集 | ~1T(全部) | $3.00 | 宪法AI |
| Mistral | Mixtral 8x22B | MoE(固定top-2) | 39B | $0.60 | 开源权重、高效 |
| DeepSeek | DeepSeek v4 | 自适应MoE | 20B(平均) | $1.80 | 动态计算分配 |

数据要点: DeepSeek v4的活跃参数数量比竞争对手低一个数量级,却实现了可比的基准测试分数。这表明行业对总参数数量的关注是误导性的——真正重要的是这些参数的使用效率。DeepSeek的方法可能迫使竞争对手要么匹配其效率,要么为其更高的成本提供合理解释。

更多来自 Hacker News

OpenAI 停用 GPT Nano 微调:轻量级 AI 定制化走向终结?OpenAI 悄然移除 GPT Nano 微调能力,标志着其产品战略的决定性转变。Nano 系列曾是面向分类、信息抽取和简单聊天机器人等成本敏感任务的轻量级入口,让开发者无需高昂成本即可在有限数据上微调小模型。如今,这些开发者要么升级到更昂AI自主权需“挣”来:基于信任的自学实验重塑安全范式在一项可能重新定义人工智能发展轨迹的突破性实验中,研究人员展示了一套AI系统——它不仅永久记住过往交互,还能从自身错误中自主学习。然而,真正的创新在于系统内置的信任机制:AI从一开始就未被赋予完全自由。相反,它必须通过一系列行为测试证明自身谷歌将AI工作空间设为默认:企业管控的新纪元谷歌对其Workspace套件的最新更新标志着一项战略转折:生成式AI不再是一个需要用户自行发现并启用的功能——它现在已成为默认能力,而关闭开关则交给了企业IT团队。全新的Workspace Intelligence管理控制台提供了对Sma查看来源专题页Hacker News 已收录 2400 篇文章

相关专题

mixture of experts15 篇相关文章AI efficiency15 篇相关文章

时间归档

April 20262294 篇已发布文章

延伸阅读

Anthropic的“玻璃之翼”:一场可能重塑AI未来的架构豪赌Anthropic内部代号“玻璃之翼”的计划,远不止渐进式研究,更是对Transformer范式的一次根本性架构押注。随着扩展成本飙升而性能收益递减,该项目旨在构建一个更高效、可解释且对齐的AI核心,或将重置行业竞争格局。通用Claude.md将AI输出令牌削减63%,一场静默的效率革命正在上演一项名为“通用Claude.md”的新方法正引发轰动,据称能将Claude模型的输出令牌数量大幅降低63%。这不仅是压缩,更是对大型语言模型与下游应用通信方式的根本性重构——它优先考虑机器可读的效率,而非人类习惯的冗长表达。纸带Transformer:一台1976年小型机如何揭示AI的计算本质在一场堪称计算考古学的壮举中,研究人员竟用1976年的小型计算机和纸带训练了一个Transformer模型。这绝非怀旧表演,而是一把哲学手术刀,将神经计算的核心从其现代硬件依赖中剥离。它挑战了行业对规模的迷恋,并揭示了通往更高效、更本质AI静默的效率革命:重塑AI经济学AI产业正经历一场静默革命:推理成本正以超越摩尔定律的速度骤降。这场效率浪潮正将竞争焦点从规模转向优化,为自主智能体解锁全新的经济模型。

常见问题

这次模型发布“DeepSeek v4's Adaptive Routing: The End of AI's Bigger-Is-Better Era”的核心内容是什么?

DeepSeek v4 represents a quiet but profound challenge to the prevailing dogma in AI: that bigger models are always better. Our technical team has dissected the architecture and fou…

从“DeepSeek v4 adaptive routing vs traditional MoE”看,这个模型发布为什么重要?

DeepSeek v4's architecture is a radical departure from the dense transformer models that have dominated the field. At its core is an adaptive routing mixture-of-experts (MoE) system. Standard MoE models, like Mixtral 8x7…

围绕“DeepSeek v4 inference cost comparison GPT-4o”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。