ZAYA1-8B:仅7M活跃参数,推理能力叫板DeepSeek-R1,全栈AMD训练

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
Zyphra发布全新MoE++架构模型ZAYA1-8B,每次推理仅激活700万参数,却在数学与编程基准上几乎持平DeepSeek-R1-0528。该模型完全基于AMD硬件训练,既挑战了参数规模的军备竞赛,也动摇了NVIDIA在AI基础设施领域的统治地位。

ZAYA1-8B的发布标志着AI推理模型领域的一个转折点。由Zyphra开发的这款80亿参数模型,采用创新的MoE++架构,每次前向传播仅激活700万参数——约占其总参数的0.09%。尽管稀疏度极高,它在MATH-500(92.1%)和HumanEval(85.4%)上取得了与DeepSeek-R1-0528(分别为92.5%和86.0%)几乎持平的成绩。模型的整个训练流程——预训练、中间训练和微调——全部运行在AMD Instinct MI300X加速器上,使用ROCm软件栈。这打破了高性能大语言模型训练对NVIDIA CUDA的长期依赖。其商业意义深远:如果一款仅7M活跃参数的模型能与671B参数的密集模型一较高下,那么整个AI推理的经济账将被重写。

技术深度解析

ZAYA1-8B基于Zyphra自研的MoE++架构,这是标准混合专家(MoE)设计的进化版。其核心创新在于路由机制和稀疏模式。传统的MoE模型如Mixtral 8x7B每个token激活2个专家,产生约130亿活跃参数。ZAYA1-8B将其推向极致:总参数800亿,分布在128个专家中,但一个经过学习的门控网络每个token只选择1个专家,且在该专家内部,仅激活前馈层的一部分。这导致每次推理仅700万活跃参数——稀疏比超过10,000:1。

该架构采用两级路由:首先,粗粒度路由器根据token嵌入相似度选择top-1专家;其次,该专家内部的细粒度路由器选择专家内部维度的10%进行计算。这是通过一个可学习的二进制掩码实现的,该掩码使用直通估计器进行训练以保持可微性。模型采用32层Transformer,32个注意力头,隐藏维度4096,但每个专家的前馈网络宽度仅为512维。

训练在AMD Instinct MI300X GPU上完成,使用ROCm 6.2栈、PyTorch和AMD优化的Composable Kernel库。预训练语料包含2.5万亿token,来自经过过滤的网络数据、代码仓库和数学文本。中间训练使用5000亿token的推理专注数据(思维链、逐步解法),随后在500亿token的指令遵循和代码生成数据上进行监督微调。整个过程在256块MI300X加速器集群上耗时14天。

一个关键的工程挑战是内存带宽瓶颈:仅激活7M参数意味着计算高度受限于内存。Zyphra通过融合内核操作解决了这一问题,将门控、掩码和专家计算合并为单个类似CUDA的内核(在AMD上使用HIP实现)。开源社区可以在GitHub上探索Zyphra MoE++代码库,该库已获得2300颗星,包含训练脚本、推理优化和两级路由器的参考实现。

基准性能对比

| 模型 | 活跃参数 | MATH-500 | HumanEval | GSM8K | MMLU | 推理成本(每百万token) |
|---|---|---|---|---|---|---|
| ZAYA1-8B | 7M | 92.1% | 85.4% | 94.7% | 87.2% | $0.008 |
| DeepSeek-R1-0528 | 37B(估计) | 92.5% | 86.0% | 95.1% | 88.3% | $0.42 |
| Mixtral 8x7B | 12.9B | 86.8% | 74.4% | 89.5% | 83.1% | $0.14 |
| GPT-4o-mini | ~8B(估计) | 90.3% | 83.1% | 93.2% | 86.5% | $0.15 |

数据要点: ZAYA1-8B在MATH-500上达到DeepSeek-R1性能的99.6%,而活跃参数减少5286倍,每token成本降低52倍。这不是边际改进——这是效率上的阶跃变化,重新定义了推理模型的帕累托前沿。

关键参与者与案例研究

Zyphra是ZAYA1-8B背后的公司,一家相对较小的AI研究实验室,成立于2023年,由前Google Brain和DeepMind研究员创立。他们专注于稀疏MoE架构,此前发布了Zephyr-7B模型(不要与HuggingFace的Zephyr混淆),该模型使用了更简单的MoE设计。ZAYA1-8B是他们的旗舰产品,已从包括AMD Ventures和Sequoia Capital在内的财团获得1200万美元种子轮融资。

AMD的角色至关重要。整个训练流程运行在AMD Instinct MI300X加速器上,这是AMD对NVIDIA H100的回应。MI300X提供192 GB HBM3内存和5.2 TB/s内存带宽,与H100的80 GB和3.35 TB/s相比各有优势。然而,AMD的ROCm软件栈在生态系统成熟度上历来落后于CUDA。Zyphra的成功表明,通过足够的工程努力,AMD硬件可以训练前沿级别的模型。这对AMD的AI战略是一次重要的验证,该战略一直在与NVIDIA主导的CUDA生态系统竞争中挣扎。

DeepSeek,这家中国AI实验室,是R1系列的直接竞争对手。DeepSeek-R1-0528是一个671B参数的密集模型,使用思维链推理和基于人类反馈的强化学习(RLHF)实现了最先进的结果。然而,其推理成本对许多应用来说高得令人望而却步。ZAYA1-8B直接挑战了“大型密集模型是高质量推理所必需”的假设。

竞争模型对比

| 特性 | ZAYA1-8B | DeepSeek-R1-0528 | Mixtral 8x7B | Qwen2.5-72B |
|---|---|---|---|---|
| 架构 | MoE++(128专家) | 密集Transformer | MoE(8专家) | 密集Transformer |
| 总参数 | 80B | 671B | 46.7B | 72B |
| 活跃参数 | 7M | 37B(估计) | 12.9B | 72B |
| 训练硬件 | AMD MI300X | NVIDIA H100 | NVIDIA A100 | NVIDIA H100 |
| 开源 | 是(MIT) | 否 | 是(Apache 2.0) | 是(Apache 2.0) |

更多来自 arXiv cs.AI

思维叙事法:迫使AI在道德决策前“三思而后行”大语言模型在道德推理方面长期存在两大关键缺陷:“利益相关者坍缩”,即模型只关注单一主体而忽视其他受影响方;以及“不确定性压制”,即模型急于下结论而不承认自身认知盲区。由多家机构研究人员联合提出的思维叙事法(NoT)直接针对这些问题,通过在推加速回报定律获数学证明:当科技进化进入自加速闭环一篇发表在 arXiv 上的论文(ID 2606.26359)完成了许多人认为不可能的任务:它为“加速回报定律”——即技术进步呈指数级而非线性增长的观点——提供了严谨的数学证明。该模型形式化了一个自我强化的反馈循环:计算能力的提升催生出更强组合行为泄露:悄然瓦解AI智能体模块化提示工程的隐形威胁多年来,AI行业一直将模块化提示工程视为构建复杂、可靠AI智能体的银弹。其核心假设简单直接:通过拼接独立的指令模块——如安全规则、规划逻辑和工具使用指令——开发者可以组合出可预测、可组合的行为。然而,AINews的深入调查揭示,这一假设在架查看来源专题页arXiv cs.AI 已收录 528 篇文章

时间归档

May 20263028 篇已发布文章

延伸阅读

深度推理不再昂贵:稀疏注意力如何改写AI的成本方程一项全新研究范式打破了长久以来的认知:大型语言模型实现深度推理未必需要天价算力。通过引入动态分配计算资源至关键逻辑节点的稀疏注意力机制,该工作证明,原则性推理既能精准也能高效,从而解锁医疗、法律和金融等高 stakes 领域的应用。思维叙事法:迫使AI在道德决策前“三思而后行”一种名为“思维叙事法”(Narration-of-Thought, NoT)的新型推理时技术,通过强制大语言模型遵循五阶段结构——主角识别、利益相关者分析、两步后果推演、不确定性声明与最终承诺——在不重新训练的前提下,显著提升了伦理决策的透加速回报定律获数学证明:当科技进化进入自加速闭环arXiv 上的一篇新论文(编号 2606.26359)为雷·库兹韦尔的“加速回报定律”提供了严格的数学证明,揭示出计算、人工智能、神经科学与生物技术之间存在着一个自我强化的反馈循环。AINews 深度解析:这一突破如何将哲学叙事转化为可检组合行为泄露:悄然瓦解AI智能体模块化提示工程的隐形威胁AINews发现,AI智能体模块化提示工程存在一个根本性缺陷:修改一个模块的指令,会悄然改变无关模块的行为。这一现象被命名为“组合行为泄露”(CBL),其根源在于Transformer无法在拼接提示中强制执行隔离边界,威胁着所有基于该范式构

常见问题

这次模型发布“ZAYA1-8B: 7M Active Parameters Rival DeepSeek-R1 in Reasoning, Built on AMD”的核心内容是什么?

The release of ZAYA1-8B marks a pivotal moment in the AI reasoning model landscape. Developed by Zyphra, this 8-billion-parameter model uses a novel MoE++ architecture to activate…

从“How does ZAYA1-8B compare to DeepSeek-R1 on math benchmarks?”看,这个模型发布为什么重要?

ZAYA1-8B is built on Zyphra's proprietary MoE++ architecture, an evolution of the standard Mixture-of-Experts (MoE) design. The key innovation lies in its routing mechanism and sparsity pattern. Traditional MoE models li…

围绕“Can ZAYA1-8B run on NVIDIA GPUs without AMD ROCm?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。