GLM-130B：中国开源1300亿参数双语模型，正面挑战GPT-3霸权

2026年5月13日 18:09 AINews GitHub May 2026

⭐ 7653

来源：GitHub Zhipu AI 归档：May 2026

智谱AI与清华KEG联合推出的GLM-130B，一个拥有1300亿参数的中英双语开源模型，已悄然成为美国之外最具影响力的大语言模型之一。其独特的自回归空白填充训练范式与面向学术研究的完整权重开放，正在挑战闭源巨头的统治地位。

在GPT-4和Claude等闭源巨头主导的格局中，GLM-130B是一个罕见的反例：一个完全开放权重、拥有1300亿参数、同时使用中英文训练的大模型。该模型由智谱AI与清华大学知识工程组（KEG）联合开发，论文发表于ICLR 2023，并在GitHub上累计获得超过7600颗星。其核心创新在于一种新颖的自回归空白填充（ABF）训练目标，它融合了掩码语言模型的双向上下文理解能力与自回归模型的生成流畅性。这使得GLM-130B在SuperGLUE等自然语言理解（NLU）任务以及文本摘要、对话等生成任务上均表现出色。该模型的意义远不止于技术层面：它证明了非美国团队也能在基础模型研发上达到世界级水平，并通过开源策略为全球研究者提供了可复现、可研究的替代方案。GLM-130B的完整权重发布，尤其是INT8量化版本的推出，大幅降低了大型模型的研究门槛，让更多学术机构能够参与前沿探索。

技术深度解析

GLM-130B的架构有意偏离了标准的GPT式仅解码器或BERT式仅编码器设计。它采用基于通用语言模型（GLM）方法的统一框架，将自回归空白填充作为核心训练目标。

架构与训练范式：
该模型构建在一个深度Transformer之上，拥有70层、隐藏层大小8192、128个注意力头，总计约1300亿参数。其关键创新在于如何处理训练数据。GLM并非从左到右预测下一个token，而是随机掩码不同长度的文本片段，然后根据未被掩码的上下文以及该片段内已生成的token，按顺序自回归地预测被掩码的token。这与BERT的掩码语言建模有本质区别——BERT是独立且非自回归地预测被掩码的token。它也与GPT的因果语言建模不同——GPT只能看到左侧上下文。

这种设计赋予了GLM-130B双重优势：
1. 双向上下文理解： 像BERT一样，它可以利用掩码片段两侧的上下文，从而在NLU基准测试上表现更强。
2. 生成流畅性： 像GPT一样，它在片段内顺序生成token，从而实现高质量的文本生成。

该模型在包含1.4万亿token的大规模双语语料库上训练，中英文比例约为50:50。训练使用了96块NVIDIA A100 GPU（80GB），耗时约60天，采用ZeRO优化和3D并行（数据并行、张量并行、流水线并行）来管理1300亿参数的规模。一个关键的工程细节是使用了混合精度训练（FP16），并配合精细的损失缩放以避免梯度下溢——这是此规模下常见的问题。

基准测试表现：
GLM-130B在一系列NLU和生成任务上与GPT-3（1750亿参数）及其他同期模型进行了评估。发表于ICLR 2023论文的结果令人瞩目：

| 基准测试 | 任务类型 | GLM-130B | GPT-3 (175B) | BLOOM (176B) |
|---|---|---|---|---|
| LAMBADA | 语言建模（困惑度） | 10.16 | 15.24 | 13.14 |
| BoolQ | NLU（准确率） | 82.3% | 80.5% | 78.1% |
| RACE-h | 阅读理解（准确率） | 72.8% | 68.0% | 65.4% |
| XSum | 摘要（ROUGE-L） | 22.1 | 21.7 | 20.3 |
| WMT-16 (英-德) | 翻译（BLEU） | 28.4 | 27.1 | 26.8 |

数据要点： 尽管参数比GPT-3少450亿，GLM-130B在多个NLU和生成基准测试上仍优于GPT-3。这表明其自回归空白填充目标在某些任务上参数效率更高，尤其是那些需要深度双向理解的任务，如阅读理解（RACE-h）和常识推理（BoolQ）。在LAMBADA上的困惑度改进尤为显著，表明其具有更优的长距离依赖建模能力。

开源实现：
完整的模型权重和推理代码已在GitHub仓库`THUDM/GLM-130B`中发布。该仓库已获得超过7600颗星，并包含使用INT8量化在单块A100（80GB）上运行推理的详细说明，这可将内存占用从约260GB降至约70GB。这种量化方法采用自定义的后训练量化技术，是一项重要的工程贡献，使没有大规模GPU集群的研究人员也能使用该模型。该仓库还提供了在下游任务上进行微调的脚本，尽管从头开始完整训练对大多数实验室来说仍然难以实现。

要点总结： GLM-130B的架构不仅仅是一个有趣的尝试；它代表了LLM设计中的第三条真正路径，证明混合训练目标可以在理解和生成任务上取得具有竞争力甚至更优的结果。其开源发布，尤其是INT8量化版本，降低了全球研究者的入门门槛。

关键参与者与案例研究

GLM-130B的开发主要由两个实体完成：智谱AI（北京）和清华大学知识工程组（KEG），由唐杰教授领导。

智谱AI： 智谱AI于2019年作为清华大学的衍生公司成立，迅速成为中国领先的AI初创公司之一。它已获得大量融资，包括2022年据报道超过1亿美元的B轮融资，投资者包括红杉中国和高瓴资本。该公司的战略围绕开源基础模型以构建生态系统，然后通过企业API服务和定制模型微调实现商业化。GLM-130B是该战略的旗舰产品。智谱还开发了较小的GLM-10B以及更近期的GLM-4系列，后者为其商业API提供支持。

清华KEG： 唐杰教授团队在知识图谱研究和大规模预训练方面有着悠久的历史。他们此前开发了CogView文本到图像模型和OAG-BER

时间归档

常见问题

GitHub 热点“GLM-130B: China's Open-Source 130B Bilingual Model Challenges GPT-3”主要讲了什么？

In a landscape dominated by proprietary behemoths like GPT-4 and Claude, GLM-130B stands as a rare counterpoint: a fully open-weight, 130-billion-parameter model trained on both Ch…

这个 GitHub 项目在“GLM-130B vs GPT-3 benchmark comparison”上为什么会引发关注？

GLM-130B's architecture is a deliberate departure from the standard GPT-style decoder-only or BERT-style encoder-only designs. It adopts a unified framework based on the General Language Model (GLM) approach, which intro…

从“How to run GLM-130B on a single GPU”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 7653，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。

GLM-130B：中国开源1300亿参数双语模型，正面挑战GPT-3霸权

技术深度解析

关键参与者与案例研究

更多来自 GitHub

相关专题

时间归档

延伸阅读

常见问题