从GPU军备竞赛到架构去中心化：中国AI模型的范式革命

多年来，中国AI开发的主流逻辑简单直接：更多GPU、更大集群、更多参数。但这一范式正在瓦解。AINews追踪了从百度、阿里巴巴到DeepSeek、智谱AI等数十家领先实验室和初创公司的决定性转向——我们称之为“架构去中心化”。这并非从算力竞赛中的战术撤退，而是对“什么才让模型成功”的战略性重新定义。团队不再追逐拥有1万亿参数的GPT-4规模，而是设计稀疏注意力机制、仅对每个输入激活相关子网络的混合专家（MoE）层，以及将推理成本降低10倍同时保持95%基准性能的领域特定微调。这一转变的核心在于：通过架构创新而非暴力堆算力，中国AI正开辟一条更高效、更可持续的发展路径。

技术深度解析

架构去中心化的核心在于三项相互关联的创新：稀疏计算、通过混合专家模型（MoE）实现的动态路由，以及将模型架构视为模块化系统而非单一整体的任务级微调。

稀疏计算： 传统密集模型对每个输入激活所有参数，导致计算成本随参数数量呈二次方增长。相比之下，稀疏模型每次前向传播仅激活一小部分参数。关键机制是“top-k”路由策略，其中学习到的门控网络为每个token选择最相关的专家模块。例如，DeepSeek的DeepSeek-MoE架构使用top-2路由：在16个专家中，每个token仅激活2个，与同等总参数的密集模型相比，有效计算量减少约8倍。GitHub上的开源仓库`deepseek-ai/DeepSeek-MoE`已获得超过12,000颗星，并被研究人员积极fork以探索稀疏训练技术。

混合专家模型（MoE）： MoE并非新概念——其起源可追溯到1991年——但近期在负载均衡和专家容量扩展方面的进步使其适用于大型语言模型。关键的工程挑战是确保专家不会“崩溃”（即所有token都路由到相同的少数专家）。现代解决方案包括惩罚不平衡路由的辅助损失函数，以及“专家选择”路由——由专家选择token而非token选择专家。阿里巴巴Qwen团队的Qwen2.5-MoE采用了一种新颖的“共享专家”机制，在保持性能的同时减少了所需的总参数数量。其结果是，一个模型在每次推理中仅使用18B活跃参数，即可达到密集72B模型90%的性能。

任务级微调： 第三大支柱是从“一个模型统治一切”转向专用架构。团队不再为每个下游任务微调一个100B+的模型，而是训练一个基础MoE模型，然后冻结大部分专家，仅微调任务特定的路由权重和一小部分专家模块。这种“适配器式”方法类似于LoRA但应用于MoE层级，可将微调计算量减少80-90%，并允许单个基础模型服务于数十个专用任务而不会发生灾难性遗忘。

| 架构 | 总参数 | 每Token活跃参数 | 推理成本（相对） | MMLU得分 | 延迟（毫秒/token） |
|---|---|---|---|---|---|
| 密集7B | 7B | 7B | 1.0x | 64.3 | 2.1 |
| 密集70B | 70B | 70B | 10.0x | 83.2 | 8.5 |
| MoE 7B（8专家，top-2） | 7B | 1.75B | 0.25x | 66.1 | 1.8 |
| MoE 70B（16专家，top-2） | 70B | 8.75B | 1.25x | 84.5 | 3.2 |
| DeepSeek-MoE 16B | 16B | 2.8B | 0.4x | 78.9 | 2.4 |

数据要点： MoE 70B模型在MMLU上得分高于密集70B（84.5 vs 83.2），同时仅使用12.5%的活跃参数和37%的推理延迟。这表明架构创新可以同时提升性能和效率——这是暴力扩展无法实现的“双赢”。

关键玩家与案例研究

DeepSeek（幻方量化）： DeepSeek已成为架构去中心化的典范。其于2024年初发布的DeepSeek-MoE模型证明，一个总参数为16B的MoE模型可以在编程和数学基准上与GPT-3.5竞争。该团队的关键洞察是使用“多头潜在注意力”机制压缩键值缓存，在推理期间将内存带宽需求降低4倍。DeepSeek的开源版本在Hugging Face上的下载量已超过50万次，其技术报告是中国机器学习社区中被引用最多的之一。

智谱AI（GLM系列）： 智谱走了一条不同但互补的路径：他们专注于“通过知识蒸馏进行模型压缩”，并结合稀疏注意力模式。其GLM-130B最初是一个密集模型，但最新的GLM-4系列采用了混合架构，其中前20层为密集层（用于通用表示），其余层使用具有学习稀疏模式的稀疏注意力。这种“密集-稀疏混合”架构在推理成本仅为密集130B模型60%的情况下，实现了其92%的性能。

百度（ERNIE）： 百度采用MoE的速度较慢，但其2025年底发布的ERNIE 4.5包含一个“任务自适应稀疏”模块，可根据输入类型动态剪枝注意力头。对于代码生成，模型激活85%的注意力头；对于简单问答，仅激活40%。这种动态稀疏性通过基于人类反馈的强化学习（RLHF）学习得到，可将平均推理成本降低35%，且不降低任何基准性能。

| 公司 | 模型 | 架构方法 | 活跃参数 | 推理成本降低 | 关键基准得分（C-Eval） |
|---|---|---|---|---|---|
| DeepSeek | DeepSeek-MoE | 全MoE（16专家，top-2） | 2.8B | 75% | 78.9 |
| 智谱AI | GLM-4 | 密集-稀疏混合 | 约40B（估计） | 40% | 82.1 |
| 百度 | ERNIE 4.5 | 任务自适应稀疏 | 动态（40%-85%） | 35% | 85.3 |

时间归档

延伸阅读

常见问题

这次模型发布“From GPU Arms Race to Architecture Decentralization: China's AI Model Revolution”的核心内容是什么？

For years, the prevailing wisdom in Chinese AI development was simple: more GPUs, bigger clusters, larger parameters. But that paradigm is cracking. AINews has tracked a decisive p…

从“What is Mixture-of-Experts (MoE) and how does it reduce compute costs?”看，这个模型发布为什么重要？

The core of architecture decentralization lies in three interconnected innovations: sparse computation, dynamic routing via Mixture-of-Experts (MoE), and task-level fine-tuning that treats model architecture as a modular…

围绕“How does DeepSeek-MoE compare to dense models on Chinese benchmarks?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。