从GPU军备竞赛到架构去中心化:中国AI模型的范式革命

June 2026
归档:June 2026
中国AI产业正经历一场从算力霸权到架构去中心化的历史性转折。当GPU扩展遭遇收益递减,开发者们转向稀疏计算、混合专家模型(MoE)和任务级微调,以远少于过去的资源实现更优性能。

多年来,中国AI开发的主流逻辑简单直接:更多GPU、更大集群、更多参数。但这一范式正在瓦解。AINews追踪了从百度、阿里巴巴到DeepSeek、智谱AI等数十家领先实验室和初创公司的决定性转向——我们称之为“架构去中心化”。这并非从算力竞赛中的战术撤退,而是对“什么才让模型成功”的战略性重新定义。团队不再追逐拥有1万亿参数的GPT-4规模,而是设计稀疏注意力机制、仅对每个输入激活相关子网络的混合专家(MoE)层,以及将推理成本降低10倍同时保持95%基准性能的领域特定微调。这一转变的核心在于:通过架构创新而非暴力堆算力,中国AI正开辟一条更高效、更可持续的发展路径。

技术深度解析

架构去中心化的核心在于三项相互关联的创新:稀疏计算、通过混合专家模型(MoE)实现的动态路由,以及将模型架构视为模块化系统而非单一整体的任务级微调。

稀疏计算: 传统密集模型对每个输入激活所有参数,导致计算成本随参数数量呈二次方增长。相比之下,稀疏模型每次前向传播仅激活一小部分参数。关键机制是“top-k”路由策略,其中学习到的门控网络为每个token选择最相关的专家模块。例如,DeepSeek的DeepSeek-MoE架构使用top-2路由:在16个专家中,每个token仅激活2个,与同等总参数的密集模型相比,有效计算量减少约8倍。GitHub上的开源仓库`deepseek-ai/DeepSeek-MoE`已获得超过12,000颗星,并被研究人员积极fork以探索稀疏训练技术。

混合专家模型(MoE): MoE并非新概念——其起源可追溯到1991年——但近期在负载均衡和专家容量扩展方面的进步使其适用于大型语言模型。关键的工程挑战是确保专家不会“崩溃”(即所有token都路由到相同的少数专家)。现代解决方案包括惩罚不平衡路由的辅助损失函数,以及“专家选择”路由——由专家选择token而非token选择专家。阿里巴巴Qwen团队的Qwen2.5-MoE采用了一种新颖的“共享专家”机制,在保持性能的同时减少了所需的总参数数量。其结果是,一个模型在每次推理中仅使用18B活跃参数,即可达到密集72B模型90%的性能。

任务级微调: 第三大支柱是从“一个模型统治一切”转向专用架构。团队不再为每个下游任务微调一个100B+的模型,而是训练一个基础MoE模型,然后冻结大部分专家,仅微调任务特定的路由权重和一小部分专家模块。这种“适配器式”方法类似于LoRA但应用于MoE层级,可将微调计算量减少80-90%,并允许单个基础模型服务于数十个专用任务而不会发生灾难性遗忘。

| 架构 | 总参数 | 每Token活跃参数 | 推理成本(相对) | MMLU得分 | 延迟(毫秒/token) |
|---|---|---|---|---|---|
| 密集7B | 7B | 7B | 1.0x | 64.3 | 2.1 |
| 密集70B | 70B | 70B | 10.0x | 83.2 | 8.5 |
| MoE 7B(8专家,top-2) | 7B | 1.75B | 0.25x | 66.1 | 1.8 |
| MoE 70B(16专家,top-2) | 70B | 8.75B | 1.25x | 84.5 | 3.2 |
| DeepSeek-MoE 16B | 16B | 2.8B | 0.4x | 78.9 | 2.4 |

数据要点: MoE 70B模型在MMLU上得分高于密集70B(84.5 vs 83.2),同时仅使用12.5%的活跃参数和37%的推理延迟。这表明架构创新可以同时提升性能和效率——这是暴力扩展无法实现的“双赢”。

关键玩家与案例研究

DeepSeek(幻方量化): DeepSeek已成为架构去中心化的典范。其于2024年初发布的DeepSeek-MoE模型证明,一个总参数为16B的MoE模型可以在编程和数学基准上与GPT-3.5竞争。该团队的关键洞察是使用“多头潜在注意力”机制压缩键值缓存,在推理期间将内存带宽需求降低4倍。DeepSeek的开源版本在Hugging Face上的下载量已超过50万次,其技术报告是中国机器学习社区中被引用最多的之一。

智谱AI(GLM系列): 智谱走了一条不同但互补的路径:他们专注于“通过知识蒸馏进行模型压缩”,并结合稀疏注意力模式。其GLM-130B最初是一个密集模型,但最新的GLM-4系列采用了混合架构,其中前20层为密集层(用于通用表示),其余层使用具有学习稀疏模式的稀疏注意力。这种“密集-稀疏混合”架构在推理成本仅为密集130B模型60%的情况下,实现了其92%的性能。

百度(ERNIE): 百度采用MoE的速度较慢,但其2025年底发布的ERNIE 4.5包含一个“任务自适应稀疏”模块,可根据输入类型动态剪枝注意力头。对于代码生成,模型激活85%的注意力头;对于简单问答,仅激活40%。这种动态稀疏性通过基于人类反馈的强化学习(RLHF)学习得到,可将平均推理成本降低35%,且不降低任何基准性能。

| 公司 | 模型 | 架构方法 | 活跃参数 | 推理成本降低 | 关键基准得分(C-Eval) |
|---|---|---|---|---|---|
| DeepSeek | DeepSeek-MoE | 全MoE(16专家,top-2) | 2.8B | 75% | 78.9 |
| 智谱AI | GLM-4 | 密集-稀疏混合 | 约40B(估计) | 40% | 82.1 |
| 百度 | ERNIE 4.5 | 任务自适应稀疏 | 动态(40%-85%) | 35% | 85.3 |

时间归档

June 20261654 篇已发布文章

延伸阅读

Meta 宣布“Token 休战”:AI 从规模崇拜转向效率为王的新纪元Meta 公开呼吁全行业停止愈演愈烈的 Token 消耗竞赛,标志着 AI 战略从“越大越好”向“效率优先”的彻底转向。此举意味着暴力扩展的时代已经终结,取而代之的是对智能优化与可持续产品创新的聚焦。AI芯片挑战者崛起:稀疏计算架构撼动英伟达王座一家专注AI推理芯片的公司上市首日暴涨68%,市值飙升至670亿美元。这标志着英伟达迎来了一个真正的挑战者——其核心武器是一种专为下一代AI工作负载设计的激进稀疏计算架构。Token数量对决智能体深度:中国AI之争定义AGI未来在罕见的正面交锋中,DeepSeek V4与Kimi K2.6在七天内先后发布,揭示了中国AI战略的根本分歧。一方押注暴力扩展,另一方则聚焦智能体智能。AINews深度剖析其中的技术、哲学与市场影响。中国独立AI巨头的双轨突围:全球化扩张与垂直化深耕中国独立AI模型公司正面临关键转折点。随着国内通用市场趋于饱和,一场根本性的战略调整已然展开。可持续增长如今取决于双轴驱动:积极开拓国际市场与深度融入垂直行业。

常见问题

这次模型发布“From GPU Arms Race to Architecture Decentralization: China's AI Model Revolution”的核心内容是什么?

For years, the prevailing wisdom in Chinese AI development was simple: more GPUs, bigger clusters, larger parameters. But that paradigm is cracking. AINews has tracked a decisive p…

从“What is Mixture-of-Experts (MoE) and how does it reduce compute costs?”看,这个模型发布为什么重要?

The core of architecture decentralization lies in three interconnected innovations: sparse computation, dynamic routing via Mixture-of-Experts (MoE), and task-level fine-tuning that treats model architecture as a modular…

围绕“How does DeepSeek-MoE compare to dense models on Chinese benchmarks?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。