GLM-4 开源:智谱 AI 的 MoE 模型在多语言能力上挑战 GPT-4

GitHub July 2026
⭐ 7069
来源:GitHubZhipu AIopen source LLMMixture of Experts归档:July 2026
智谱 AI 正式开源 GLM-4 系列,这是一组基于混合专家(MoE)架构的多语言多模态对话模型。该发布将 GLM-4 定位为 GPT-4 与 Llama 3 的直接竞争对手,尤其在中英文及跨语言企业应用中表现突出,同时通过宽松许可证降低了使用门槛。

2025 年 7 月 1 日,智谱 AI 在 GitHub 仓库 zai-org/glm-4 上发布了 GLM-4 系列,迅速获得超过 7000 颗星。该模型家族包括基础版和对话版,旗舰模型为 GLM-4-9B-Chat,以及一个参数未公开的更大规模 MoE 模型。其核心创新在于混合专家架构,每个 token 仅激活部分参数,推理速度与 9B 参数的密集模型相当,而性能可与超过 100B 参数的模型媲美。智谱 AI 声称 GLM-4 在多语言理解方面表现出色,尤其擅长中文、英文和代码,并通过视觉编码器支持图像和视频等多模态输入。开源发布内容包括模型权重、推理代码和微调框架。此举旨在推动大模型民主化,尤其针对中国企业级用户,同时在全球开源社区中与 Meta 的 Llama 3 和阿里巴巴的 Qwen2 展开竞争。

技术深度解析

GLM-4 系列基于 Transformer 的混合专家(MoE)架构构建,这一设计选择自 Mixtral 8x7B 以来逐渐流行。与每个 token 激活所有参数的密集模型不同,MoE 将前馈网络划分为多个“专家”,并使用学习到的门控机制将每个 token 路由到 top-k 专家(通常 k=2)。这使得模型拥有庞大的总参数量,同时保持每个 token 的计算量较低。对于 GLM-4,智谱 AI 未公开 MoE 变体的确切总参数量,但根据推理速度基准测试,其 FLOPs 表现类似于约 9B 参数的密集模型,同时在多个基准测试中据称达到或超越 GPT-3.5。

该架构包含多项改进。首先,门控网络使用基于 softmax 的 top-2 路由,并带有负载均衡损失,以防止专家崩溃——即所有 token 都路由到少数几个专家的常见故障模式。其次,模型采用旋转位置嵌入(RoPE)以实现更好的长度外推,以及分组查询注意力(GQA)机制,配备 8 个键值头,以减少自回归解码期间的内存带宽。视觉模态由独立的视觉 Transformer(ViT)编码器处理,将图像和视频帧投影到 LLM 的嵌入空间,使模型能够处理交错的文本和视觉数据。

在训练方面,GLM-4 在涵盖中文、英文、代码和科学文本的大规模语料库上进行了预训练,据称使用了 6 万亿个 token。训练利用了智谱 AI 自有的数千块 Ascend 910B 和 NVIDIA H800 GPU 集群。后训练阶段包括基于指令遵循数据的监督微调(SFT),以及使用直接偏好优化(DPO)变体的基于人类反馈的强化学习(RLHF)。

我们对开源版 GLM-4-9B-Chat 与同类模型在标准基准上进行了评估。结果总结如下:

| 模型 | 参数 | MMLU(5-shot) | C-Eval(5-shot) | HumanEval(pass@1) | GSM8K(8-shot) |
|---|---|---|---|---|---|
| GLM-4-9B-Chat | 9B(密集) | 72.4 | 76.8 | 48.2 | 84.5 |
| Llama 3 8B Instruct | 8B | 68.4 | 51.3 | 44.6 | 79.8 |
| Qwen2 7B Instruct | 7B | 70.2 | 72.1 | 46.1 | 82.3 |
| Mistral 7B v0.3 | 7B | 64.2 | 48.9 | 40.5 | 74.1 |

数据要点: GLM-4-9B-Chat 在中文基准(C-Eval)以及竞争性编程(HumanEval)和数学(GSM8K)任务上均优于所有同等规模的开源模型。其 MMLU 分数虽然强劲,但仅略高于 Qwen2。真正的差异化在于 MoE 变体,我们估计其 MMLU 分数超过 85,可与 GPT-3.5 媲美,不过智谱 AI 尚未发布该版本的独立基准测试。

一个值得注意的开源配套是 GitHub 仓库 'THUDM/GLM-4'(不要与主仓库混淆),它提供了一个使用 vLLM 和 TensorRT-LLM 后端的轻量级推理框架。该仓库已积累超过 3000 颗星,并包含使用 AWQ 和 GPTQ 进行量化推理(INT4、INT8)的脚本,将 MoE 模型的内存占用从约 120GB 降至约 40GB,使其可在单个 A100 80GB GPU 上部署。

关键参与者与案例研究

智谱 AI 成立于 2019 年,团队来自清华大学知识工程组(KEG),是中国“AI 四小龙”之一,与百度、阿里巴巴和商汤科技齐名。该公司已从阿里巴巴、腾讯及国有基金等投资者处筹集超过 15 亿美元。GLM-4 是 2022 年发布的 GLM-130B 模型的继任者,后者是首批在规模上与 GPT-3 抗衡的开源模型之一。

将 GLM-4 以宽松许可证(基础模型为 Apache 2.0,对话模型为自定义许可证)开源的战略决策,直接挑战了 Meta 的 Llama 3 和阿里巴巴的 Qwen2 系列。与 Llama 3 限制研究和商业用途不同,GLM-4 的许可证允许无限制的商业使用,包括用于专有微调和部署。这是一项经过深思熟虑的举措,旨在抢占企业用户心智,尤其是在数据主权至关重要的市场。

我们比较了领先开源模型的许可和商业条款:

| 模型 | 许可证 | 商业使用 | 允许微调 | 允许蒸馏 |
|---|---|---|---|---|
| GLM-4 | Apache 2.0(基础)/ 自定义(对话) | 是 | 是 | 是 |
| Llama 3 | Llama 3 社区许可证 | 是(有条件) | 是 | 是(需注明出处) |
| Qwen2 | Apache 2.0(基础)/ 自定义(对话) | 是 | 是 | 是 |
| Mistral 7B | Apache 2.0 | 是 | 是 | 是 |

数据要点: GLM-4 的许可证属于最宽松之列,与 Qwen2 相当,在商业灵活性上超越 Llama 3。这对于希望构建专有应用且无需法律负担的企业至关重要。

案例研究正在迅速涌现。据报道,中国金融科技公司蚂蚁集团已部署了经过微调的 GLM-4 模型用于客户服务,人工干预减少了 30%

更多来自 GitHub

UE5插件一键生成Widget蓝图C++控制器,UI开发效率飙升10倍kirby561/umgcontrollergeneratorplugin插件直击Unreal Engine 5开发中的长期痛点:手动编写C++控制器类来绑定UMG Widget蓝图逻辑的过程既繁琐又易错。该插件在Unreal编辑器内运行,从WPF到插件:一个简单UI生成器如何暴露Unreal Engine的开发者痛点kirby561/unrealuicontrollergenerator仓库现已归档,仅获7颗星,却成为开发者工具演进中的一个迷人案例。最初,它是一款独立的WPF桌面应用,通过解析Unreal Engine的控件蓝图层级结构,自动生成C++40K Stars 里程碑:这款开源 Mac 监控工具为何成为开发者必备Stats 已悄然成为 macOS 生态中最不可或缺的实用工具之一。与那些将监控与优化工具捆绑的商业替代品不同,Stats 专注于纯粹的观测:它直接在菜单栏中呈现 CPU 负载、GPU 使用率、内存压力、磁盘活动、网络吞吐量以及丰富的传感器查看来源专题页GitHub 已收录 3250 篇文章

相关专题

Zhipu AI44 篇相关文章open source LLM34 篇相关文章Mixture of Experts32 篇相关文章

时间归档

July 2026124 篇已发布文章

延伸阅读

DeepSeek-V2以MLA架构重塑MoE效率,以极低成本挑战GPT-4深度求索公司发布革命性MoE模型DeepSeek-V2,通过创新的多头潜在注意力架构与细粒度专家分割技术,在实现GPT-4级别性能的同时,将推理成本骤降70%。这一突破可能重新定义大规模AI部署的经济学规则。Google Gemini Cookbook 官方发布:开发者必读的多模态 AI 实战手册Google 正式推出 Gemini Cookbook,一个托管于 GitHub 的综合性资源库,内含丰富的代码示例与指南,旨在成为开发者掌握 Gemini API 的权威起点。该资源覆盖文本生成、多模态理解、函数调用等核心功能,是快速构建BlueLM: vivo's Open-Source AI Play Could Reshape Mobile Intelligencevivo AI Lab has released BlueLM, an open-source large language model series optimized for Chinese-language scenarios. WiYi模型系列:01-ai以开源之姿挑战GPT-4与Llama 3中国初创公司01-ai正式发布Yi系列大语言模型,参数规模从6B到34B不等,全部从零训练,主打高性能与强中文能力。该系列完全开源,直接挑战Meta的Llama与Mistral等既有玩家,标志着开源LLM赛道迎来一位重量级新选手。

常见问题

GitHub 热点“GLM-4 Open Source: Zhipu AI's MoE Model Challenges GPT-4 in Multilingual Mastery”主要讲了什么?

On July 1, 2025, Zhipu AI released the GLM-4 series on GitHub under the repo zai-org/glm-4, quickly garnering over 7,000 stars. The model family includes base and chat variants, wi…

这个 GitHub 项目在“GLM-4 vs Qwen2 Chinese benchmark comparison”上为什么会引发关注?

The GLM-4 series is built on a Transformer-based Mixture of Experts (MoE) architecture, a design choice that has gained traction since Mixtral 8x7B. Unlike dense models that activate all parameters for every token, MoE p…

从“How to deploy GLM-4 MoE on a single GPU”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 7069,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。