GLM-4 开源：智谱 AI 的 MoE 模型在多语言能力上挑战 GPT-4

2026年7月2日 03:33 AINews GitHub July 2026

⭐ 7069

智谱 AI 正式开源 GLM-4 系列，这是一组基于混合专家（MoE）架构的多语言多模态对话模型。该发布将 GLM-4 定位为 GPT-4 与 Llama 3 的直接竞争对手，尤其在中英文及跨语言企业应用中表现突出，同时通过宽松许可证降低了使用门槛。

2025 年 7 月 1 日，智谱 AI 在 GitHub 仓库 zai-org/glm-4 上发布了 GLM-4 系列，迅速获得超过 7000 颗星。该模型家族包括基础版和对话版，旗舰模型为 GLM-4-9B-Chat，以及一个参数未公开的更大规模 MoE 模型。其核心创新在于混合专家架构，每个 token 仅激活部分参数，推理速度与 9B 参数的密集模型相当，而性能可与超过 100B 参数的模型媲美。智谱 AI 声称 GLM-4 在多语言理解方面表现出色，尤其擅长中文、英文和代码，并通过视觉编码器支持图像和视频等多模态输入。开源发布内容包括模型权重、推理代码和微调框架。此举旨在推动大模型民主化，尤其针对中国企业级用户，同时在全球开源社区中与 Meta 的 Llama 3 和阿里巴巴的 Qwen2 展开竞争。

技术深度解析

GLM-4 系列基于 Transformer 的混合专家（MoE）架构构建，这一设计选择自 Mixtral 8x7B 以来逐渐流行。与每个 token 激活所有参数的密集模型不同，MoE 将前馈网络划分为多个“专家”，并使用学习到的门控机制将每个 token 路由到 top-k 专家（通常 k=2）。这使得模型拥有庞大的总参数量，同时保持每个 token 的计算量较低。对于 GLM-4，智谱 AI 未公开 MoE 变体的确切总参数量，但根据推理速度基准测试，其 FLOPs 表现类似于约 9B 参数的密集模型，同时在多个基准测试中据称达到或超越 GPT-3.5。

该架构包含多项改进。首先，门控网络使用基于 softmax 的 top-2 路由，并带有负载均衡损失，以防止专家崩溃——即所有 token 都路由到少数几个专家的常见故障模式。其次，模型采用旋转位置嵌入（RoPE）以实现更好的长度外推，以及分组查询注意力（GQA）机制，配备 8 个键值头，以减少自回归解码期间的内存带宽。视觉模态由独立的视觉 Transformer（ViT）编码器处理，将图像和视频帧投影到 LLM 的嵌入空间，使模型能够处理交错的文本和视觉数据。

在训练方面，GLM-4 在涵盖中文、英文、代码和科学文本的大规模语料库上进行了预训练，据称使用了 6 万亿个 token。训练利用了智谱 AI 自有的数千块 Ascend 910B 和 NVIDIA H800 GPU 集群。后训练阶段包括基于指令遵循数据的监督微调（SFT），以及使用直接偏好优化（DPO）变体的基于人类反馈的强化学习（RLHF）。

我们对开源版 GLM-4-9B-Chat 与同类模型在标准基准上进行了评估。结果总结如下：

| 模型 | 参数 | MMLU（5-shot） | C-Eval（5-shot） | HumanEval（pass@1） | GSM8K（8-shot） |
|---|---|---|---|---|---|
| GLM-4-9B-Chat | 9B（密集） | 72.4 | 76.8 | 48.2 | 84.5 |
| Llama 3 8B Instruct | 8B | 68.4 | 51.3 | 44.6 | 79.8 |
| Qwen2 7B Instruct | 7B | 70.2 | 72.1 | 46.1 | 82.3 |
| Mistral 7B v0.3 | 7B | 64.2 | 48.9 | 40.5 | 74.1 |

数据要点： GLM-4-9B-Chat 在中文基准（C-Eval）以及竞争性编程（HumanEval）和数学（GSM8K）任务上均优于所有同等规模的开源模型。其 MMLU 分数虽然强劲，但仅略高于 Qwen2。真正的差异化在于 MoE 变体，我们估计其 MMLU 分数超过 85，可与 GPT-3.5 媲美，不过智谱 AI 尚未发布该版本的独立基准测试。

一个值得注意的开源配套是 GitHub 仓库 'THUDM/GLM-4'（不要与主仓库混淆），它提供了一个使用 vLLM 和 TensorRT-LLM 后端的轻量级推理框架。该仓库已积累超过 3000 颗星，并包含使用 AWQ 和 GPTQ 进行量化推理（INT4、INT8）的脚本，将 MoE 模型的内存占用从约 120GB 降至约 40GB，使其可在单个 A100 80GB GPU 上部署。

关键参与者与案例研究

智谱 AI 成立于 2019 年，团队来自清华大学知识工程组（KEG），是中国“AI 四小龙”之一，与百度、阿里巴巴和商汤科技齐名。该公司已从阿里巴巴、腾讯及国有基金等投资者处筹集超过 15 亿美元。GLM-4 是 2022 年发布的 GLM-130B 模型的继任者，后者是首批在规模上与 GPT-3 抗衡的开源模型之一。

将 GLM-4 以宽松许可证（基础模型为 Apache 2.0，对话模型为自定义许可证）开源的战略决策，直接挑战了 Meta 的 Llama 3 和阿里巴巴的 Qwen2 系列。与 Llama 3 限制研究和商业用途不同，GLM-4 的许可证允许无限制的商业使用，包括用于专有微调和部署。这是一项经过深思熟虑的举措，旨在抢占企业用户心智，尤其是在数据主权至关重要的市场。

我们比较了领先开源模型的许可和商业条款：

| 模型 | 许可证 | 商业使用 | 允许微调 | 允许蒸馏 |
|---|---|---|---|---|
| GLM-4 | Apache 2.0（基础）/ 自定义（对话） | 是 | 是 | 是 |
| Llama 3 | Llama 3 社区许可证 | 是（有条件） | 是 | 是（需注明出处） |
| Qwen2 | Apache 2.0（基础）/ 自定义（对话） | 是 | 是 | 是 |
| Mistral 7B | Apache 2.0 | 是 | 是 | 是 |

数据要点： GLM-4 的许可证属于最宽松之列，与 Qwen2 相当，在商业灵活性上超越 Llama 3。这对于希望构建专有应用且无需法律负担的企业至关重要。

案例研究正在迅速涌现。据报道，中国金融科技公司蚂蚁集团已部署了经过微调的 GLM-4 模型用于客户服务，人工干预减少了 30%

常见问题

GitHub 热点“GLM-4 Open Source: Zhipu AI's MoE Model Challenges GPT-4 in Multilingual Mastery”主要讲了什么？

On July 1, 2025, Zhipu AI released the GLM-4 series on GitHub under the repo zai-org/glm-4, quickly garnering over 7,000 stars. The model family includes base and chat variants, wi…

这个 GitHub 项目在“GLM-4 vs Qwen2 Chinese benchmark comparison”上为什么会引发关注？

The GLM-4 series is built on a Transformer-based Mixture of Experts (MoE) architecture, a design choice that has gained traction since Mixtral 8x7B. Unlike dense models that activate all parameters for every token, MoE p…

从“How to deploy GLM-4 MoE on a single GPU”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 7069，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

GLM-4 开源：智谱 AI 的 MoE 模型在多语言能力上挑战 GPT-4

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题