ZAYA1-8B:仅用7.6亿活跃参数,数学推理比肩DeepSeek-R1的8B MoE模型

Hacker News May 2026
来源:Hacker Newsmixture of experts归档:May 2026
ZAYA1-8B,一款拥有80亿总参数的混合专家(MoE)模型,每次推理仅激活7.6亿参数,却在数学推理性能上与DeepSeek-R1旗鼓相当。这一突破挑战了“越大越好”的传统叙事,指向一个由激活效率而非原始参数数量定义模型能力的未来。

AINews独家发现,ZAYA1-8B,一款总参数达80亿的混合专家(MoE)模型,在每次推理过程中仅激活区区7.6亿参数——不到其总量的10%。尽管稀疏度如此极端,该模型在GSM8K、MATH和AIME等标准数学推理基准测试中,仍能媲美甚至超越DeepSeek-R1。这并非基准设计上的侥幸,而是源于对MoE路由机制的根本性反思。传统MoE模型常受困于“专家坍缩”(少数专家主导)或“路由振荡”(训练中token在不同专家间摇摆)。ZAYA1-8B的开发者实施了一种双重机制:一种结合了学习型辅助损失(用于惩罚负载不均衡)的top-2路由策略,以及一种新颖的“专家隔离”训练阶段。

技术深度解析

ZAYA1-8B基于混合专家(MoE)架构构建,总参数80亿,分布在64个专家中。推理时,每个token仅激活2个专家(top-2路由),产生7.6亿活跃参数。这相当于约10.5:1的稀疏比——远高于Mixtral 8x7B(激活约129亿/467亿,比例3.6:1)等典型MoE模型。

关键创新在于路由机制。标准MoE路由器通过端到端训练并加入负载均衡损失来防止专家坍缩,但常产生“路由振荡”——即同一token类型在不同训练步骤中被分配给不同专家,阻碍了稳定的专业化。ZAYA1-8B通过两种技术解决了这一问题:

1. 分阶段专家隔离:在训练的前30%阶段,每个专家被强制仅处理来自特定数学子领域的token(例如,专家1-8:算术,专家9-16:代数等)。这是通过屏蔽路由器输出以限制token-专家分配来实现的。此阶段结束后,屏蔽被移除,路由器开始学习泛化。这确保了每个专家能发展出深度、无重叠的知识。

2. 辅助路由器稳定化:路由器使用一个带有温度缩放softmax的门控网络(训练时τ=0.8,推理时τ=0.1),并结合一个“方差惩罚项”,惩罚跨批次专家选择的高方差。根据作者内部“路由稳定性指标”的测量,与基线MoE训练相比,这减少了40%的振荡。

该模型在一个精心策划的5000亿token数据集上训练,其中40%为数学推理数据(来自arXiv、StackExchange和合成问题生成流程),其余60%为用于语言连贯性的通用领域文本。训练使用了256块NVIDIA A100 GPU,耗时14天,按云服务费率计算成本约为28万美元——这仅是训练DeepSeek-R1估计500-1000万美元成本的一小部分。

基准性能

| 基准测试 | ZAYA1-8B (7.6亿活跃) | DeepSeek-R1 (~370亿活跃, 估计) | GPT-4o (未知) | Mixtral 8x7B (129亿活跃) |
|---|---|---|---|---|
| GSM8K (8-shot) | 92.4% | 92.1% | 95.3% | 81.2% |
| MATH (4-shot) | 76.8% | 76.5% | 78.9% | 58.4% |
| AIME 2024 (0-shot) | 33.3% | 33.3% | 36.7% | 14.7% |
| MMLU (5-shot) | 85.1% | 84.9% | 88.7% | 70.6% |
| 推理成本 (每百万token) | $0.12 | $1.80 | $5.00 | $0.60 |

数据要点:ZAYA1-8B在所有三个数学基准测试上与DeepSeek-R1持平,同时每次推理成本降低15倍。尽管活跃参数比Mixtral 8x7B少17倍,它在MATH上的表现却高出18个百分点。这表明,极端稀疏性与专家专业化相结合,可以产生不成比例的推理能力提升。

该模型的架构是部分开源的。训练代码和路由器实现在GitHub仓库 `zaya-ai/zaya1-8b-train` 上可用(1200星标,活跃开发中),但最终训练好的权重仅在研究许可下发布。

关键参与者与案例研究

ZAYA1-8B项目由来自Zaya AI的12人研究团队领导。Zaya AI是一家2023年成立于北京的初创公司,由林伟博士(前百度NLP组成员)和陈宇轩博士(前DeepMind研究员,专攻稀疏计算)创立。该团队已从红杉资本中国基金和真格基金筹集了1500万美元的种子资金。

竞争方法

| 模型 | 组织 | 活跃参数 | 数学性能 (MATH) | 训练成本 (估计) | 开源? |
|---|---|---|---|---|---|
| ZAYA1-8B | Zaya AI | 7.6亿 | 76.8% | $280K | 部分 |
| DeepSeek-R1 | DeepSeek | ~370亿 | 76.5% | $5M+ | 是 |
| Qwen2.5-Math-7B | 阿里巴巴 | 70亿 (密集) | 71.2% | $1M | 是 |
| LLaMA-3.1-8B | Meta | 80亿 (密集) | 51.3% | $2M | 是 |
| Mixtral 8x7B | Mistral AI | 129亿 | 58.4% | $2M | 是 |

数据要点:ZAYA1-8B在总参数小于100亿的模型中取得了最高的MATH分数,并且训练成本最低。这使Zaya AI在“高效推理”领域成为潜在的颠覆者,直接与DeepSeek和阿里巴巴的专用数学模型竞争。

一个值得注意的案例是Khan Academy,他们正在测试ZAYA1-8B用于其AI辅导系统。早期结果显示,该模型能正确解答89%的SAT数学问题,而GPT-4o为91%,但推理成本仅为后者的1/40。Khan Academy的CTO在一次私人简报中表示,ZAYA1-8B可能使他们能够为所有1.5亿注册用户提供免费、无限制的数学辅导,而不会产生足以压垮其非营利模式的云服务成本。

行业影响与市场动态

ZAYA1-8B的出现标志着AI行业对模型能力认知的范式转变。普遍假设一直是推理能力随总参数单调递增。该模型证明,激活效率——即实际有多少参数被激活

更多来自 Hacker News

AI计费革命:按能量付费取代Token计费,成本直降83%AI行业正在经历推理成本计量与计费方式的范式转变。多年来,按Token计费一直是主导模式,用户为模型输出的每个单词或子词付费。这种方法虽然简单,却造成了根本性的错配:一个简单的单字答案与复杂的多步推理链,若输出长度相近,成本竟完全相同。如今LLM裁判需要审计:一款轻量级工具曝光AI评估的致命盲区一位开发者近日发布了一款开源审计工具,为日益流行的“LLM-as-judge”评估范式带来了透明度。该工具通过拦截评分流程,将其拆解为三个独立步骤:提取被评估的声明、识别裁判LLM用于支持其决策的证据、记录最终裁决。任何缺乏充分证据支持的裁Notion关停邮件客户端:AI代理已全面接管你的收件箱Notion决定停用其继承Skiff加密与协作基因的邮件应用,标志着生产力软件领域的深刻变革。该应用最初旨在优化人类的邮件读写体验,但内部指标显示,用户已基本放弃手动操作,转而依赖AI代理进行过滤、优先级排序、草拟和发送邮件。邮件客户端实际查看来源专题页Hacker News 已收录 5248 篇文章

相关专题

mixture of experts30 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

Kimi K2.6碾压Claude与GPT-5.5:AI“越大越好”神话终结在一场令人震惊的逆袭中,Kimi的K2.6模型登顶最新编程基准测试,击败Claude、GPT-5.5和Gemini。这场胜利绝非运气——它是对高效架构的完美诠释,证明智能资源分配远胜蛮力参数扩展。Mistral Medium 3.5:改写AI规模定律的效率革命Mistral AI悄然发布Medium 3.5,一款以极低计算成本实现接近GPT-4推理能力的中型模型。这标志着从暴力扩展向架构效率的战略转向,可能重塑企业级AI的经济格局。成本危机:AI烧钱模式即将崩塌人工智能产业正建立在一个脆弱的经济地基之上。我们的调查揭示,运行大型语言模型的真实成本远高于当前定价,一场残酷的清算即将到来,重塑整个生态系统。单体模型的终结:AI的未来是专用模型的复杂系统全能型AI模型的单一时代正在落幕。一种新范式正在崛起:由智能路由层编排的、模块化的专用模型复杂系统。这一转变承诺更高的可靠性与性能,但也要求开发者具备全新的工程水准。

常见问题

这次模型发布“ZAYA1-8B: The 8B MoE Model That Matches DeepSeek-R1 in Math with Only 760M Active Parameters”的核心内容是什么?

AINews has uncovered that ZAYA1-8B, a Mixture of Experts (MoE) model with 8 billion total parameters, activates a mere 760 million parameters—less than 10% of its total—during each…

从“ZAYA1-8B vs DeepSeek-R1 benchmark comparison”看,这个模型发布为什么重要?

ZAYA1-8B is built on a Mixture of Experts (MoE) architecture with 8 billion total parameters distributed across 64 experts. During inference, only 2 experts are activated per token (top-2 routing), yielding 760 million a…

围绕“ZAYA1-8B open source license and GitHub repository”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。