技术深度解析
GLM-4 系列基于 Transformer 的混合专家(MoE)架构构建,这一设计选择自 Mixtral 8x7B 以来逐渐流行。与每个 token 激活所有参数的密集模型不同,MoE 将前馈网络划分为多个“专家”,并使用学习到的门控机制将每个 token 路由到 top-k 专家(通常 k=2)。这使得模型拥有庞大的总参数量,同时保持每个 token 的计算量较低。对于 GLM-4,智谱 AI 未公开 MoE 变体的确切总参数量,但根据推理速度基准测试,其 FLOPs 表现类似于约 9B 参数的密集模型,同时在多个基准测试中据称达到或超越 GPT-3.5。
该架构包含多项改进。首先,门控网络使用基于 softmax 的 top-2 路由,并带有负载均衡损失,以防止专家崩溃——即所有 token 都路由到少数几个专家的常见故障模式。其次,模型采用旋转位置嵌入(RoPE)以实现更好的长度外推,以及分组查询注意力(GQA)机制,配备 8 个键值头,以减少自回归解码期间的内存带宽。视觉模态由独立的视觉 Transformer(ViT)编码器处理,将图像和视频帧投影到 LLM 的嵌入空间,使模型能够处理交错的文本和视觉数据。
在训练方面,GLM-4 在涵盖中文、英文、代码和科学文本的大规模语料库上进行了预训练,据称使用了 6 万亿个 token。训练利用了智谱 AI 自有的数千块 Ascend 910B 和 NVIDIA H800 GPU 集群。后训练阶段包括基于指令遵循数据的监督微调(SFT),以及使用直接偏好优化(DPO)变体的基于人类反馈的强化学习(RLHF)。
我们对开源版 GLM-4-9B-Chat 与同类模型在标准基准上进行了评估。结果总结如下:
| 模型 | 参数 | MMLU(5-shot) | C-Eval(5-shot) | HumanEval(pass@1) | GSM8K(8-shot) |
|---|---|---|---|---|---|
| GLM-4-9B-Chat | 9B(密集) | 72.4 | 76.8 | 48.2 | 84.5 |
| Llama 3 8B Instruct | 8B | 68.4 | 51.3 | 44.6 | 79.8 |
| Qwen2 7B Instruct | 7B | 70.2 | 72.1 | 46.1 | 82.3 |
| Mistral 7B v0.3 | 7B | 64.2 | 48.9 | 40.5 | 74.1 |
数据要点: GLM-4-9B-Chat 在中文基准(C-Eval)以及竞争性编程(HumanEval)和数学(GSM8K)任务上均优于所有同等规模的开源模型。其 MMLU 分数虽然强劲,但仅略高于 Qwen2。真正的差异化在于 MoE 变体,我们估计其 MMLU 分数超过 85,可与 GPT-3.5 媲美,不过智谱 AI 尚未发布该版本的独立基准测试。
一个值得注意的开源配套是 GitHub 仓库 'THUDM/GLM-4'(不要与主仓库混淆),它提供了一个使用 vLLM 和 TensorRT-LLM 后端的轻量级推理框架。该仓库已积累超过 3000 颗星,并包含使用 AWQ 和 GPTQ 进行量化推理(INT4、INT8)的脚本,将 MoE 模型的内存占用从约 120GB 降至约 40GB,使其可在单个 A100 80GB GPU 上部署。
关键参与者与案例研究
智谱 AI 成立于 2019 年,团队来自清华大学知识工程组(KEG),是中国“AI 四小龙”之一,与百度、阿里巴巴和商汤科技齐名。该公司已从阿里巴巴、腾讯及国有基金等投资者处筹集超过 15 亿美元。GLM-4 是 2022 年发布的 GLM-130B 模型的继任者,后者是首批在规模上与 GPT-3 抗衡的开源模型之一。
将 GLM-4 以宽松许可证(基础模型为 Apache 2.0,对话模型为自定义许可证)开源的战略决策,直接挑战了 Meta 的 Llama 3 和阿里巴巴的 Qwen2 系列。与 Llama 3 限制研究和商业用途不同,GLM-4 的许可证允许无限制的商业使用,包括用于专有微调和部署。这是一项经过深思熟虑的举措,旨在抢占企业用户心智,尤其是在数据主权至关重要的市场。
我们比较了领先开源模型的许可和商业条款:
| 模型 | 许可证 | 商业使用 | 允许微调 | 允许蒸馏 |
|---|---|---|---|---|
| GLM-4 | Apache 2.0(基础)/ 自定义(对话) | 是 | 是 | 是 |
| Llama 3 | Llama 3 社区许可证 | 是(有条件) | 是 | 是(需注明出处) |
| Qwen2 | Apache 2.0(基础)/ 自定义(对话) | 是 | 是 | 是 |
| Mistral 7B | Apache 2.0 | 是 | 是 | 是 |
数据要点: GLM-4 的许可证属于最宽松之列,与 Qwen2 相当,在商业灵活性上超越 Llama 3。这对于希望构建专有应用且无需法律负担的企业至关重要。
案例研究正在迅速涌现。据报道,中国金融科技公司蚂蚁集团已部署了经过微调的 GLM-4 模型用于客户服务,人工干预减少了 30%