ZAYA1-8B：仅7M活跃参数，推理能力叫板DeepSeek-R1，全栈AMD训练

2026年5月8日 14:23 AINews arXiv cs.AI May 2026

来源：arXiv cs.AI 归档：May 2026

Zyphra发布全新MoE++架构模型ZAYA1-8B，每次推理仅激活700万参数，却在数学与编程基准上几乎持平DeepSeek-R1-0528。该模型完全基于AMD硬件训练，既挑战了参数规模的军备竞赛，也动摇了NVIDIA在AI基础设施领域的统治地位。

ZAYA1-8B的发布标志着AI推理模型领域的一个转折点。由Zyphra开发的这款80亿参数模型，采用创新的MoE++架构，每次前向传播仅激活700万参数——约占其总参数的0.09%。尽管稀疏度极高，它在MATH-500（92.1%）和HumanEval（85.4%）上取得了与DeepSeek-R1-0528（分别为92.5%和86.0%）几乎持平的成绩。模型的整个训练流程——预训练、中间训练和微调——全部运行在AMD Instinct MI300X加速器上，使用ROCm软件栈。这打破了高性能大语言模型训练对NVIDIA CUDA的长期依赖。其商业意义深远：如果一款仅7M活跃参数的模型能与671B参数的密集模型一较高下，那么整个AI推理的经济账将被重写。

技术深度解析

ZAYA1-8B基于Zyphra自研的MoE++架构，这是标准混合专家（MoE）设计的进化版。其核心创新在于路由机制和稀疏模式。传统的MoE模型如Mixtral 8x7B每个token激活2个专家，产生约130亿活跃参数。ZAYA1-8B将其推向极致：总参数800亿，分布在128个专家中，但一个经过学习的门控网络每个token只选择1个专家，且在该专家内部，仅激活前馈层的一部分。这导致每次推理仅700万活跃参数——稀疏比超过10,000:1。

该架构采用两级路由：首先，粗粒度路由器根据token嵌入相似度选择top-1专家；其次，该专家内部的细粒度路由器选择专家内部维度的10%进行计算。这是通过一个可学习的二进制掩码实现的，该掩码使用直通估计器进行训练以保持可微性。模型采用32层Transformer，32个注意力头，隐藏维度4096，但每个专家的前馈网络宽度仅为512维。

训练在AMD Instinct MI300X GPU上完成，使用ROCm 6.2栈、PyTorch和AMD优化的Composable Kernel库。预训练语料包含2.5万亿token，来自经过过滤的网络数据、代码仓库和数学文本。中间训练使用5000亿token的推理专注数据（思维链、逐步解法），随后在500亿token的指令遵循和代码生成数据上进行监督微调。整个过程在256块MI300X加速器集群上耗时14天。

一个关键的工程挑战是内存带宽瓶颈：仅激活7M参数意味着计算高度受限于内存。Zyphra通过融合内核操作解决了这一问题，将门控、掩码和专家计算合并为单个类似CUDA的内核（在AMD上使用HIP实现）。开源社区可以在GitHub上探索Zyphra MoE++代码库，该库已获得2300颗星，包含训练脚本、推理优化和两级路由器的参考实现。

基准性能对比

| 模型 | 活跃参数 | MATH-500 | HumanEval | GSM8K | MMLU | 推理成本（每百万token） |
|---|---|---|---|---|---|---|
| ZAYA1-8B | 7M | 92.1% | 85.4% | 94.7% | 87.2% | $0.008 |
| DeepSeek-R1-0528 | 37B（估计） | 92.5% | 86.0% | 95.1% | 88.3% | $0.42 |
| Mixtral 8x7B | 12.9B | 86.8% | 74.4% | 89.5% | 83.1% | $0.14 |
| GPT-4o-mini | ~8B（估计） | 90.3% | 83.1% | 93.2% | 86.5% | $0.15 |

数据要点： ZAYA1-8B在MATH-500上达到DeepSeek-R1性能的99.6%，而活跃参数减少5286倍，每token成本降低52倍。这不是边际改进——这是效率上的阶跃变化，重新定义了推理模型的帕累托前沿。

关键参与者与案例研究

Zyphra是ZAYA1-8B背后的公司，一家相对较小的AI研究实验室，成立于2023年，由前Google Brain和DeepMind研究员创立。他们专注于稀疏MoE架构，此前发布了Zephyr-7B模型（不要与HuggingFace的Zephyr混淆），该模型使用了更简单的MoE设计。ZAYA1-8B是他们的旗舰产品，已从包括AMD Ventures和Sequoia Capital在内的财团获得1200万美元种子轮融资。

AMD的角色至关重要。整个训练流程运行在AMD Instinct MI300X加速器上，这是AMD对NVIDIA H100的回应。MI300X提供192 GB HBM3内存和5.2 TB/s内存带宽，与H100的80 GB和3.35 TB/s相比各有优势。然而，AMD的ROCm软件栈在生态系统成熟度上历来落后于CUDA。Zyphra的成功表明，通过足够的工程努力，AMD硬件可以训练前沿级别的模型。这对AMD的AI战略是一次重要的验证，该战略一直在与NVIDIA主导的CUDA生态系统竞争中挣扎。

DeepSeek，这家中国AI实验室，是R1系列的直接竞争对手。DeepSeek-R1-0528是一个671B参数的密集模型，使用思维链推理和基于人类反馈的强化学习（RLHF）实现了最先进的结果。然而，其推理成本对许多应用来说高得令人望而却步。ZAYA1-8B直接挑战了“大型密集模型是高质量推理所必需”的假设。

竞争模型对比

| 特性 | ZAYA1-8B | DeepSeek-R1-0528 | Mixtral 8x7B | Qwen2.5-72B |
|---|---|---|---|---|
| 架构 | MoE++（128专家） | 密集Transformer | MoE（8专家） | 密集Transformer |
| 总参数 | 80B | 671B | 46.7B | 72B |
| 活跃参数 | 7M | 37B（估计） | 12.9B | 72B |
| 训练硬件 | AMD MI300X | NVIDIA H100 | NVIDIA A100 | NVIDIA H100 |
| 开源 | 是（MIT） | 否 | 是（Apache 2.0） | 是（Apache 2.0） |

时间归档

常见问题

这次模型发布“ZAYA1-8B: 7M Active Parameters Rival DeepSeek-R1 in Reasoning, Built on AMD”的核心内容是什么？

The release of ZAYA1-8B marks a pivotal moment in the AI reasoning model landscape. Developed by Zyphra, this 8-billion-parameter model uses a novel MoE++ architecture to activate…

从“How does ZAYA1-8B compare to DeepSeek-R1 on math benchmarks?”看，这个模型发布为什么重要？

ZAYA1-8B is built on Zyphra's proprietary MoE++ architecture, an evolution of the standard Mixture-of-Experts (MoE) design. The key innovation lies in its routing mechanism and sparsity pattern. Traditional MoE models li…

围绕“Can ZAYA1-8B run on NVIDIA GPUs without AMD ROCm?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

ZAYA1-8B：仅7M活跃参数，推理能力叫板DeepSeek-R1，全栈AMD训练

技术深度解析

关键参与者与案例研究

更多来自 arXiv cs.AI

时间归档

延伸阅读

常见问题