GLM-130B:中国开源1300亿参数双语模型,正面挑战GPT-3霸权

GitHub May 2026
⭐ 7653
来源:GitHubZhipu AI归档:May 2026
智谱AI与清华KEG联合推出的GLM-130B,一个拥有1300亿参数的中英双语开源模型,已悄然成为美国之外最具影响力的大语言模型之一。其独特的自回归空白填充训练范式与面向学术研究的完整权重开放,正在挑战闭源巨头的统治地位。

在GPT-4和Claude等闭源巨头主导的格局中,GLM-130B是一个罕见的反例:一个完全开放权重、拥有1300亿参数、同时使用中英文训练的大模型。该模型由智谱AI与清华大学知识工程组(KEG)联合开发,论文发表于ICLR 2023,并在GitHub上累计获得超过7600颗星。其核心创新在于一种新颖的自回归空白填充(ABF)训练目标,它融合了掩码语言模型的双向上下文理解能力与自回归模型的生成流畅性。这使得GLM-130B在SuperGLUE等自然语言理解(NLU)任务以及文本摘要、对话等生成任务上均表现出色。该模型的意义远不止于技术层面:它证明了非美国团队也能在基础模型研发上达到世界级水平,并通过开源策略为全球研究者提供了可复现、可研究的替代方案。GLM-130B的完整权重发布,尤其是INT8量化版本的推出,大幅降低了大型模型的研究门槛,让更多学术机构能够参与前沿探索。

技术深度解析

GLM-130B的架构有意偏离了标准的GPT式仅解码器或BERT式仅编码器设计。它采用基于通用语言模型(GLM)方法的统一框架,将自回归空白填充作为核心训练目标。

架构与训练范式:
该模型构建在一个深度Transformer之上,拥有70层、隐藏层大小8192、128个注意力头,总计约1300亿参数。其关键创新在于如何处理训练数据。GLM并非从左到右预测下一个token,而是随机掩码不同长度的文本片段,然后根据未被掩码的上下文以及该片段内已生成的token,按顺序自回归地预测被掩码的token。这与BERT的掩码语言建模有本质区别——BERT是独立且非自回归地预测被掩码的token。它也与GPT的因果语言建模不同——GPT只能看到左侧上下文。

这种设计赋予了GLM-130B双重优势:
1. 双向上下文理解: 像BERT一样,它可以利用掩码片段两侧的上下文,从而在NLU基准测试上表现更强。
2. 生成流畅性: 像GPT一样,它在片段内顺序生成token,从而实现高质量的文本生成。

该模型在包含1.4万亿token的大规模双语语料库上训练,中英文比例约为50:50。训练使用了96块NVIDIA A100 GPU(80GB),耗时约60天,采用ZeRO优化和3D并行(数据并行、张量并行、流水线并行)来管理1300亿参数的规模。一个关键的工程细节是使用了混合精度训练(FP16),并配合精细的损失缩放以避免梯度下溢——这是此规模下常见的问题。

基准测试表现:
GLM-130B在一系列NLU和生成任务上与GPT-3(1750亿参数)及其他同期模型进行了评估。发表于ICLR 2023论文的结果令人瞩目:

| 基准测试 | 任务类型 | GLM-130B | GPT-3 (175B) | BLOOM (176B) |
|---|---|---|---|---|
| LAMBADA | 语言建模(困惑度) | 10.16 | 15.24 | 13.14 |
| BoolQ | NLU(准确率) | 82.3% | 80.5% | 78.1% |
| RACE-h | 阅读理解(准确率) | 72.8% | 68.0% | 65.4% |
| XSum | 摘要(ROUGE-L) | 22.1 | 21.7 | 20.3 |
| WMT-16 (英-德) | 翻译(BLEU) | 28.4 | 27.1 | 26.8 |

数据要点: 尽管参数比GPT-3少450亿,GLM-130B在多个NLU和生成基准测试上仍优于GPT-3。这表明其自回归空白填充目标在某些任务上参数效率更高,尤其是那些需要深度双向理解的任务,如阅读理解(RACE-h)和常识推理(BoolQ)。在LAMBADA上的困惑度改进尤为显著,表明其具有更优的长距离依赖建模能力。

开源实现:
完整的模型权重和推理代码已在GitHub仓库`THUDM/GLM-130B`中发布。该仓库已获得超过7600颗星,并包含使用INT8量化在单块A100(80GB)上运行推理的详细说明,这可将内存占用从约260GB降至约70GB。这种量化方法采用自定义的后训练量化技术,是一项重要的工程贡献,使没有大规模GPU集群的研究人员也能使用该模型。该仓库还提供了在下游任务上进行微调的脚本,尽管从头开始完整训练对大多数实验室来说仍然难以实现。

要点总结: GLM-130B的架构不仅仅是一个有趣的尝试;它代表了LLM设计中的第三条真正路径,证明混合训练目标可以在理解和生成任务上取得具有竞争力甚至更优的结果。其开源发布,尤其是INT8量化版本,降低了全球研究者的入门门槛。

关键参与者与案例研究

GLM-130B的开发主要由两个实体完成:智谱AI(北京)和清华大学知识工程组(KEG),由唐杰教授领导。

智谱AI: 智谱AI于2019年作为清华大学的衍生公司成立,迅速成为中国领先的AI初创公司之一。它已获得大量融资,包括2022年据报道超过1亿美元的B轮融资,投资者包括红杉中国和高瓴资本。该公司的战略围绕开源基础模型以构建生态系统,然后通过企业API服务和定制模型微调实现商业化。GLM-130B是该战略的旗舰产品。智谱还开发了较小的GLM-10B以及更近期的GLM-4系列,后者为其商业API提供支持。

清华KEG: 唐杰教授团队在知识图谱研究和大规模预训练方面有着悠久的历史。他们此前开发了CogView文本到图像模型和OAG-BER

更多来自 GitHub

HNSWlib:低调支撑AI向量搜索的幕后英雄在构建更快、更精准AI应用的竞赛中,向量搜索已成为关键瓶颈。HNSWlib,这个在GitHub上拥有超过5200颗星的开源库,提供了一个看似简单的解决方案:一个单头文件的C++实现,基于分层可导航小世界(HNSW)算法,为近似最近邻(ANNmem-fs-editor:驱动 Yeoman 文件生成引擎的无名英雄AINews 深度调研了 mem-fs-editor——一个轻量但强大的 Node.js 库,它构建在 mem-fs 虚拟文件系统之上。该库由 Yeoman 的同一缔造者 Simon Boudrias 开发,为常见的文件操作(读取、写入、复HNSWlib-to-Go:填补Golang向量搜索基础设施的关键空白sunhailin-leo/hnswlib-to-go仓库为nmslib旗下的HNSWlib提供了直接的Go语言绑定。HNSWlib是广泛应用于近似最近邻(ANN)搜索的C++库,其核心算法——分层可导航小世界图(HNSW)——已成为高召回查看来源专题页GitHub 已收录 1755 篇文章

相关专题

Zhipu AI19 篇相关文章

时间归档

May 20261393 篇已发布文章

延伸阅读

Meta Llama 3:重新定义大语言模型前沿的开源AIMeta 正式发布 Llama 3,一系列开源大语言模型,性能足以与 GPT-4 和 Claude 3 等闭源系统抗衡。8B 和 70B 参数版本、宽松的商业许可协议,以及蓬勃发展的 GitHub 社区,让 Llama 3 有望推动 AI Meta的Llama工具集:悄然支撑企业AI应用的基础设施Meta官方在GitHub上的llama-models仓库已突破7500星,悄然成为开发者构建Llama应用的事实入口。但在这简洁界面之下,隐藏着一场可能重塑企业部署开源LLM方式的战略基础设施布局。CodeGeeX4-ALL-9B:一个模型,能否终结你的整个开发工具链?智谱AI发布开源模型CodeGeeX4-ALL-9B,将五种截然不同的开发者工作流压缩进一个90亿参数的架构中。AINews深入探究:这种大一统究竟是真正的突破,还是“样样通,样样松”的妥协?Open WebUI 掀起本地AI民主化浪潮:一个开源界面如何重塑LLM生态格局开源大语言模型爆发式增长后,用户体验成为关键瓶颈。当Llama 3、Mistral等模型变得强大易得时,与之交互却仍需命令行技能。Open WebUI彻底解决了这一痛点,它提供了一款精致的、类ChatGPT的界面,完全在用户本地硬件上运行,

常见问题

GitHub 热点“GLM-130B: China's Open-Source 130B Bilingual Model Challenges GPT-3”主要讲了什么?

In a landscape dominated by proprietary behemoths like GPT-4 and Claude, GLM-130B stands as a rare counterpoint: a fully open-weight, 130-billion-parameter model trained on both Ch…

这个 GitHub 项目在“GLM-130B vs GPT-3 benchmark comparison”上为什么会引发关注?

GLM-130B's architecture is a deliberate departure from the standard GPT-style decoder-only or BERT-style encoder-only designs. It adopts a unified framework based on the General Language Model (GLM) approach, which intro…

从“How to run GLM-130B on a single GPU”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 7653,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。