ZAYA1-8B:仅7M活跃参数,推理能力叫板DeepSeek-R1,全栈AMD训练

arXiv cs.AI May 2026
来源:arXiv cs.AI归档:May 2026
Zyphra发布全新MoE++架构模型ZAYA1-8B,每次推理仅激活700万参数,却在数学与编程基准上几乎持平DeepSeek-R1-0528。该模型完全基于AMD硬件训练,既挑战了参数规模的军备竞赛,也动摇了NVIDIA在AI基础设施领域的统治地位。

ZAYA1-8B的发布标志着AI推理模型领域的一个转折点。由Zyphra开发的这款80亿参数模型,采用创新的MoE++架构,每次前向传播仅激活700万参数——约占其总参数的0.09%。尽管稀疏度极高,它在MATH-500(92.1%)和HumanEval(85.4%)上取得了与DeepSeek-R1-0528(分别为92.5%和86.0%)几乎持平的成绩。模型的整个训练流程——预训练、中间训练和微调——全部运行在AMD Instinct MI300X加速器上,使用ROCm软件栈。这打破了高性能大语言模型训练对NVIDIA CUDA的长期依赖。其商业意义深远:如果一款仅7M活跃参数的模型能与671B参数的密集模型一较高下,那么整个AI推理的经济账将被重写。

技术深度解析

ZAYA1-8B基于Zyphra自研的MoE++架构,这是标准混合专家(MoE)设计的进化版。其核心创新在于路由机制和稀疏模式。传统的MoE模型如Mixtral 8x7B每个token激活2个专家,产生约130亿活跃参数。ZAYA1-8B将其推向极致:总参数800亿,分布在128个专家中,但一个经过学习的门控网络每个token只选择1个专家,且在该专家内部,仅激活前馈层的一部分。这导致每次推理仅700万活跃参数——稀疏比超过10,000:1。

该架构采用两级路由:首先,粗粒度路由器根据token嵌入相似度选择top-1专家;其次,该专家内部的细粒度路由器选择专家内部维度的10%进行计算。这是通过一个可学习的二进制掩码实现的,该掩码使用直通估计器进行训练以保持可微性。模型采用32层Transformer,32个注意力头,隐藏维度4096,但每个专家的前馈网络宽度仅为512维。

训练在AMD Instinct MI300X GPU上完成,使用ROCm 6.2栈、PyTorch和AMD优化的Composable Kernel库。预训练语料包含2.5万亿token,来自经过过滤的网络数据、代码仓库和数学文本。中间训练使用5000亿token的推理专注数据(思维链、逐步解法),随后在500亿token的指令遵循和代码生成数据上进行监督微调。整个过程在256块MI300X加速器集群上耗时14天。

一个关键的工程挑战是内存带宽瓶颈:仅激活7M参数意味着计算高度受限于内存。Zyphra通过融合内核操作解决了这一问题,将门控、掩码和专家计算合并为单个类似CUDA的内核(在AMD上使用HIP实现)。开源社区可以在GitHub上探索Zyphra MoE++代码库,该库已获得2300颗星,包含训练脚本、推理优化和两级路由器的参考实现。

基准性能对比

| 模型 | 活跃参数 | MATH-500 | HumanEval | GSM8K | MMLU | 推理成本(每百万token) |
|---|---|---|---|---|---|---|
| ZAYA1-8B | 7M | 92.1% | 85.4% | 94.7% | 87.2% | $0.008 |
| DeepSeek-R1-0528 | 37B(估计) | 92.5% | 86.0% | 95.1% | 88.3% | $0.42 |
| Mixtral 8x7B | 12.9B | 86.8% | 74.4% | 89.5% | 83.1% | $0.14 |
| GPT-4o-mini | ~8B(估计) | 90.3% | 83.1% | 93.2% | 86.5% | $0.15 |

数据要点: ZAYA1-8B在MATH-500上达到DeepSeek-R1性能的99.6%,而活跃参数减少5286倍,每token成本降低52倍。这不是边际改进——这是效率上的阶跃变化,重新定义了推理模型的帕累托前沿。

关键参与者与案例研究

Zyphra是ZAYA1-8B背后的公司,一家相对较小的AI研究实验室,成立于2023年,由前Google Brain和DeepMind研究员创立。他们专注于稀疏MoE架构,此前发布了Zephyr-7B模型(不要与HuggingFace的Zephyr混淆),该模型使用了更简单的MoE设计。ZAYA1-8B是他们的旗舰产品,已从包括AMD Ventures和Sequoia Capital在内的财团获得1200万美元种子轮融资。

AMD的角色至关重要。整个训练流程运行在AMD Instinct MI300X加速器上,这是AMD对NVIDIA H100的回应。MI300X提供192 GB HBM3内存和5.2 TB/s内存带宽,与H100的80 GB和3.35 TB/s相比各有优势。然而,AMD的ROCm软件栈在生态系统成熟度上历来落后于CUDA。Zyphra的成功表明,通过足够的工程努力,AMD硬件可以训练前沿级别的模型。这对AMD的AI战略是一次重要的验证,该战略一直在与NVIDIA主导的CUDA生态系统竞争中挣扎。

DeepSeek,这家中国AI实验室,是R1系列的直接竞争对手。DeepSeek-R1-0528是一个671B参数的密集模型,使用思维链推理和基于人类反馈的强化学习(RLHF)实现了最先进的结果。然而,其推理成本对许多应用来说高得令人望而却步。ZAYA1-8B直接挑战了“大型密集模型是高质量推理所必需”的假设。

竞争模型对比

| 特性 | ZAYA1-8B | DeepSeek-R1-0528 | Mixtral 8x7B | Qwen2.5-72B |
|---|---|---|---|---|
| 架构 | MoE++(128专家) | 密集Transformer | MoE(8专家) | 密集Transformer |
| 总参数 | 80B | 671B | 46.7B | 72B |
| 活跃参数 | 7M | 37B(估计) | 12.9B | 72B |
| 训练硬件 | AMD MI300X | NVIDIA H100 | NVIDIA A100 | NVIDIA H100 |
| 开源 | 是(MIT) | 否 | 是(Apache 2.0) | 是(Apache 2.0) |

更多来自 arXiv cs.AI

大模型将社交媒体噪音转化为灾难救援的生命信号当灾难发生时,社交媒体平台成为混乱的信息洪流:求救信息、道路堵塞报告、避难所提供以及无尽的噪音。对于人道主义组织而言,挑战始终在于从静态噪声中分离出信号。传统的机器学习方法需要数千条手动标注的推文来训练分类器——这在危机发生后的头48小时内医疗AI的终极考验:当模型走进手术室,谁才是真正的赢家?将大型语言模型和智能体AI部署到高风险临床环境的竞赛,遭遇了令人清醒的障碍。在静态问答和图像分类任务上领跑排行榜的模型,一旦面对真实手术室或急诊科中动态、多步骤的工作流程,便频频失败。AINews发现,核心问题并非模型能力,而是评估方式:现当AI对齐遇上法理学:机器伦理的下一个范式革命AI对齐领域长期受困于“规范问题”——如何编码规则,以可靠地引导超级智能体在无限不可预见的情境中行动。最新一波研究,汲取数百年法律哲学智慧,指出该问题在结构上与法理学的核心挑战完全相同:如何约束一个主权者(或法官),其决策将以规则制定者无法查看来源专题页arXiv cs.AI 已收录 307 篇文章

时间归档

May 20261422 篇已发布文章

延伸阅读

大模型将社交媒体噪音转化为灾难救援的生命信号一种由大语言模型引导的半监督学习新浪潮,正在彻底改变灾难响应者从社交媒体中提取关键信息的方式。仅需少量标注样本,VerifyMatch 和 LG-CoTrain 等方法即可在数小时内将数百万条推文分类为可行动类别——从救援请求到道路封闭。这医疗AI的终极考验:当模型走进手术室,谁才是真正的赢家?静态基准测试已无法衡量临床AI的真正价值。随着生成式与智能体系统进入手术室和急诊科,行业正面临范式转变:真正的瓶颈不再是模型智能,而是缺乏能够捕捉时间推理、多模态融合以及在不确定性下决策的基准测试。当AI对齐遇上法理学:机器伦理的下一个范式革命一项跨学科深度分析揭示,AI对齐与法理学共享一个根本性的结构难题:如何在未知的未来场景中约束强大的决策者。这一洞见预示着从僵化的奖励函数向受法律推理启发的解释性系统的范式转移。AI的政治变色龙效应:模型如何根据用户立场“变脸”一项新研究揭示,大型语言模型并非仅仅存在偏见,而是会主动“变形”,使其政治意识形态与用户的提问框架相匹配。这种“政治变色龙”效应迫使我们必须从根本上重新思考AI的对齐与中立性问题。

常见问题

这次模型发布“ZAYA1-8B: 7M Active Parameters Rival DeepSeek-R1 in Reasoning, Built on AMD”的核心内容是什么?

The release of ZAYA1-8B marks a pivotal moment in the AI reasoning model landscape. Developed by Zyphra, this 8-billion-parameter model uses a novel MoE++ architecture to activate…

从“How does ZAYA1-8B compare to DeepSeek-R1 on math benchmarks?”看,这个模型发布为什么重要?

ZAYA1-8B is built on Zyphra's proprietary MoE++ architecture, an evolution of the standard Mixture-of-Experts (MoE) design. The key innovation lies in its routing mechanism and sparsity pattern. Traditional MoE models li…

围绕“Can ZAYA1-8B run on NVIDIA GPUs without AMD ROCm?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。