ZAYA1-8B：仅用7.6亿活跃参数，数学推理比肩DeepSeek-R1的8B MoE模型

2026年5月7日 18:32 AINews Hacker News May 2026

ZAYA1-8B，一款拥有80亿总参数的混合专家（MoE）模型，每次推理仅激活7.6亿参数，却在数学推理性能上与DeepSeek-R1旗鼓相当。这一突破挑战了“越大越好”的传统叙事，指向一个由激活效率而非原始参数数量定义模型能力的未来。

AINews独家发现，ZAYA1-8B，一款总参数达80亿的混合专家（MoE）模型，在每次推理过程中仅激活区区7.6亿参数——不到其总量的10%。尽管稀疏度如此极端，该模型在GSM8K、MATH和AIME等标准数学推理基准测试中，仍能媲美甚至超越DeepSeek-R1。这并非基准设计上的侥幸，而是源于对MoE路由机制的根本性反思。传统MoE模型常受困于“专家坍缩”（少数专家主导）或“路由振荡”（训练中token在不同专家间摇摆）。ZAYA1-8B的开发者实施了一种双重机制：一种结合了学习型辅助损失（用于惩罚负载不均衡）的top-2路由策略，以及一种新颖的“专家隔离”训练阶段。

技术深度解析

ZAYA1-8B基于混合专家（MoE）架构构建，总参数80亿，分布在64个专家中。推理时，每个token仅激活2个专家（top-2路由），产生7.6亿活跃参数。这相当于约10.5:1的稀疏比——远高于Mixtral 8x7B（激活约129亿/467亿，比例3.6:1）等典型MoE模型。

关键创新在于路由机制。标准MoE路由器通过端到端训练并加入负载均衡损失来防止专家坍缩，但常产生“路由振荡”——即同一token类型在不同训练步骤中被分配给不同专家，阻碍了稳定的专业化。ZAYA1-8B通过两种技术解决了这一问题：

1. 分阶段专家隔离：在训练的前30%阶段，每个专家被强制仅处理来自特定数学子领域的token（例如，专家1-8：算术，专家9-16：代数等）。这是通过屏蔽路由器输出以限制token-专家分配来实现的。此阶段结束后，屏蔽被移除，路由器开始学习泛化。这确保了每个专家能发展出深度、无重叠的知识。

2. 辅助路由器稳定化：路由器使用一个带有温度缩放softmax的门控网络（训练时τ=0.8，推理时τ=0.1），并结合一个“方差惩罚项”，惩罚跨批次专家选择的高方差。根据作者内部“路由稳定性指标”的测量，与基线MoE训练相比，这减少了40%的振荡。

该模型在一个精心策划的5000亿token数据集上训练，其中40%为数学推理数据（来自arXiv、StackExchange和合成问题生成流程），其余60%为用于语言连贯性的通用领域文本。训练使用了256块NVIDIA A100 GPU，耗时14天，按云服务费率计算成本约为28万美元——这仅是训练DeepSeek-R1估计500-1000万美元成本的一小部分。

基准性能：

| 基准测试 | ZAYA1-8B (7.6亿活跃) | DeepSeek-R1 (~370亿活跃, 估计) | GPT-4o (未知) | Mixtral 8x7B (129亿活跃) |
|---|---|---|---|---|
| GSM8K (8-shot) | 92.4% | 92.1% | 95.3% | 81.2% |
| MATH (4-shot) | 76.8% | 76.5% | 78.9% | 58.4% |
| AIME 2024 (0-shot) | 33.3% | 33.3% | 36.7% | 14.7% |
| MMLU (5-shot) | 85.1% | 84.9% | 88.7% | 70.6% |
| 推理成本 (每百万token) | $0.12 | $1.80 | $5.00 | $0.60 |

数据要点：ZAYA1-8B在所有三个数学基准测试上与DeepSeek-R1持平，同时每次推理成本降低15倍。尽管活跃参数比Mixtral 8x7B少17倍，它在MATH上的表现却高出18个百分点。这表明，极端稀疏性与专家专业化相结合，可以产生不成比例的推理能力提升。

该模型的架构是部分开源的。训练代码和路由器实现在GitHub仓库 `zaya-ai/zaya1-8b-train` 上可用（1200星标，活跃开发中），但最终训练好的权重仅在研究许可下发布。

关键参与者与案例研究

ZAYA1-8B项目由来自Zaya AI的12人研究团队领导。Zaya AI是一家2023年成立于北京的初创公司，由林伟博士（前百度NLP组成员）和陈宇轩博士（前DeepMind研究员，专攻稀疏计算）创立。该团队已从红杉资本中国基金和真格基金筹集了1500万美元的种子资金。

竞争方法：

| 模型 | 组织 | 活跃参数 | 数学性能 (MATH) | 训练成本 (估计) | 开源? |
|---|---|---|---|---|---|
| ZAYA1-8B | Zaya AI | 7.6亿 | 76.8% | $280K | 部分 |
| DeepSeek-R1 | DeepSeek | ~370亿 | 76.5% | $5M+ | 是 |
| Qwen2.5-Math-7B | 阿里巴巴 | 70亿 (密集) | 71.2% | $1M | 是 |
| LLaMA-3.1-8B | Meta | 80亿 (密集) | 51.3% | $2M | 是 |
| Mixtral 8x7B | Mistral AI | 129亿 | 58.4% | $2M | 是 |

数据要点：ZAYA1-8B在总参数小于100亿的模型中取得了最高的MATH分数，并且训练成本最低。这使Zaya AI在“高效推理”领域成为潜在的颠覆者，直接与DeepSeek和阿里巴巴的专用数学模型竞争。

一个值得注意的案例是Khan Academy，他们正在测试ZAYA1-8B用于其AI辅导系统。早期结果显示，该模型能正确解答89%的SAT数学问题，而GPT-4o为91%，但推理成本仅为后者的1/40。Khan Academy的CTO在一次私人简报中表示，ZAYA1-8B可能使他们能够为所有1.5亿注册用户提供免费、无限制的数学辅导，而不会产生足以压垮其非营利模式的云服务成本。

行业影响与市场动态

ZAYA1-8B的出现标志着AI行业对模型能力认知的范式转变。普遍假设一直是推理能力随总参数单调递增。该模型证明，激活效率——即实际有多少参数被激活

常见问题

这次模型发布“ZAYA1-8B: The 8B MoE Model That Matches DeepSeek-R1 in Math with Only 760M Active Parameters”的核心内容是什么？

AINews has uncovered that ZAYA1-8B, a Mixture of Experts (MoE) model with 8 billion total parameters, activates a mere 760 million parameters—less than 10% of its total—during each…

从“ZAYA1-8B vs DeepSeek-R1 benchmark comparison”看，这个模型发布为什么重要？

ZAYA1-8B is built on a Mixture of Experts (MoE) architecture with 8 billion total parameters distributed across 64 experts. During inference, only 2 experts are activated per token (top-2 routing), yielding 760 million a…

围绕“ZAYA1-8B open source license and GitHub repository”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

ZAYA1-8B：仅用7.6亿活跃参数，数学推理比肩DeepSeek-R1的8B MoE模型

技术深度解析

关键参与者与案例研究

行业影响与市场动态

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题