GLM-130B:中国开源1300亿参数双语模型,正面挑战GPT-3霸权

GitHub May 2026
⭐ 7653
来源:GitHubopen-source LLMZhipu AI归档:May 2026
智谱AI与清华KEG联合推出的GLM-130B,一个拥有1300亿参数的中英双语开源模型,已悄然成为美国之外最具影响力的大语言模型之一。其独特的自回归空白填充训练范式与面向学术研究的完整权重开放,正在挑战闭源巨头的统治地位。

在GPT-4和Claude等闭源巨头主导的格局中,GLM-130B是一个罕见的反例:一个完全开放权重、拥有1300亿参数、同时使用中英文训练的大模型。该模型由智谱AI与清华大学知识工程组(KEG)联合开发,论文发表于ICLR 2023,并在GitHub上累计获得超过7600颗星。其核心创新在于一种新颖的自回归空白填充(ABF)训练目标,它融合了掩码语言模型的双向上下文理解能力与自回归模型的生成流畅性。这使得GLM-130B在SuperGLUE等自然语言理解(NLU)任务以及文本摘要、对话等生成任务上均表现出色。该模型的意义远不止于技术层面:它证明了非美国团队也能在基础模型研发上达到世界级水平,并通过开源策略为全球研究者提供了可复现、可研究的替代方案。GLM-130B的完整权重发布,尤其是INT8量化版本的推出,大幅降低了大型模型的研究门槛,让更多学术机构能够参与前沿探索。

技术深度解析

GLM-130B的架构有意偏离了标准的GPT式仅解码器或BERT式仅编码器设计。它采用基于通用语言模型(GLM)方法的统一框架,将自回归空白填充作为核心训练目标。

架构与训练范式:
该模型构建在一个深度Transformer之上,拥有70层、隐藏层大小8192、128个注意力头,总计约1300亿参数。其关键创新在于如何处理训练数据。GLM并非从左到右预测下一个token,而是随机掩码不同长度的文本片段,然后根据未被掩码的上下文以及该片段内已生成的token,按顺序自回归地预测被掩码的token。这与BERT的掩码语言建模有本质区别——BERT是独立且非自回归地预测被掩码的token。它也与GPT的因果语言建模不同——GPT只能看到左侧上下文。

这种设计赋予了GLM-130B双重优势:
1. 双向上下文理解: 像BERT一样,它可以利用掩码片段两侧的上下文,从而在NLU基准测试上表现更强。
2. 生成流畅性: 像GPT一样,它在片段内顺序生成token,从而实现高质量的文本生成。

该模型在包含1.4万亿token的大规模双语语料库上训练,中英文比例约为50:50。训练使用了96块NVIDIA A100 GPU(80GB),耗时约60天,采用ZeRO优化和3D并行(数据并行、张量并行、流水线并行)来管理1300亿参数的规模。一个关键的工程细节是使用了混合精度训练(FP16),并配合精细的损失缩放以避免梯度下溢——这是此规模下常见的问题。

基准测试表现:
GLM-130B在一系列NLU和生成任务上与GPT-3(1750亿参数)及其他同期模型进行了评估。发表于ICLR 2023论文的结果令人瞩目:

| 基准测试 | 任务类型 | GLM-130B | GPT-3 (175B) | BLOOM (176B) |
|---|---|---|---|---|
| LAMBADA | 语言建模(困惑度) | 10.16 | 15.24 | 13.14 |
| BoolQ | NLU(准确率) | 82.3% | 80.5% | 78.1% |
| RACE-h | 阅读理解(准确率) | 72.8% | 68.0% | 65.4% |
| XSum | 摘要(ROUGE-L) | 22.1 | 21.7 | 20.3 |
| WMT-16 (英-德) | 翻译(BLEU) | 28.4 | 27.1 | 26.8 |

数据要点: 尽管参数比GPT-3少450亿,GLM-130B在多个NLU和生成基准测试上仍优于GPT-3。这表明其自回归空白填充目标在某些任务上参数效率更高,尤其是那些需要深度双向理解的任务,如阅读理解(RACE-h)和常识推理(BoolQ)。在LAMBADA上的困惑度改进尤为显著,表明其具有更优的长距离依赖建模能力。

开源实现:
完整的模型权重和推理代码已在GitHub仓库`THUDM/GLM-130B`中发布。该仓库已获得超过7600颗星,并包含使用INT8量化在单块A100(80GB)上运行推理的详细说明,这可将内存占用从约260GB降至约70GB。这种量化方法采用自定义的后训练量化技术,是一项重要的工程贡献,使没有大规模GPU集群的研究人员也能使用该模型。该仓库还提供了在下游任务上进行微调的脚本,尽管从头开始完整训练对大多数实验室来说仍然难以实现。

要点总结: GLM-130B的架构不仅仅是一个有趣的尝试;它代表了LLM设计中的第三条真正路径,证明混合训练目标可以在理解和生成任务上取得具有竞争力甚至更优的结果。其开源发布,尤其是INT8量化版本,降低了全球研究者的入门门槛。

关键参与者与案例研究

GLM-130B的开发主要由两个实体完成:智谱AI(北京)和清华大学知识工程组(KEG),由唐杰教授领导。

智谱AI: 智谱AI于2019年作为清华大学的衍生公司成立,迅速成为中国领先的AI初创公司之一。它已获得大量融资,包括2022年据报道超过1亿美元的B轮融资,投资者包括红杉中国和高瓴资本。该公司的战略围绕开源基础模型以构建生态系统,然后通过企业API服务和定制模型微调实现商业化。GLM-130B是该战略的旗舰产品。智谱还开发了较小的GLM-10B以及更近期的GLM-4系列,后者为其商业API提供支持。

清华KEG: 唐杰教授团队在知识图谱研究和大规模预训练方面有着悠久的历史。他们此前开发了CogView文本到图像模型和OAG-BER

更多来自 GitHub

ARC算法动物园里的RNN解码器:AI安全研究的钻石原石还是死胡同?对齐研究中心(ARC)长期以来一直是AI安全领域的风向标,其算法动物园(alg-zoo)是一个精心策划的模型集合,旨在探索学习的基本机制。如今,一个名为nixgd/rnn-explaining的新兴项目浮出水面,承诺解释该动物园中RNN的内React Native动画大师之路:这个开源Demo合集正在重塑移动端UI体验enzomanuelmangano/demos仓库是一个持续更新的开源React Native动画合集,基于Reanimated、Gesture Handler和Skia三大核心库构建。它在开发者社区中迅速走红,累计获得2900+ GitHLDNS:一款可能颠覆传统DNS基础设施的轻量级C库LDNS 由 NLnet Labs 开发,是一款轻量级的 C 语言库,旨在简化 DNS 工具编程。与 BIND 或 Unbound 这类单体式 DNS 服务器不同,LDNS 提供了最小化、模块化的 API,让开发者无需承载完整服务器的开销,查看来源专题页GitHub 已收录 3099 篇文章

相关专题

open-source LLM32 篇相关文章Zhipu AI43 篇相关文章

时间归档

May 20263028 篇已发布文章

延伸阅读

GLM:重新定义统一NLP架构的中文语言模型清华大学THUDM团队提出的GLM(通用语言模型)开创了一种新颖的自回归填空范式,将自然语言理解与生成统一在单一框架中。本文深入剖析其架构设计、对ChatGLM系列的影响,以及至今仍定义其技术遗产的权衡取舍。Yi模型系列:01-ai以开源之姿挑战GPT-4与Llama 3中国初创公司01-ai正式发布Yi系列大语言模型,参数规模从6B到34B不等,全部从零训练,主打高性能与强中文能力。该系列完全开源,直接挑战Meta的Llama与Mistral等既有玩家,标志着开源LLM赛道迎来一位重量级新选手。Mistral-Finetune:开源微调工具,如何改写企业AI定制规则Mistral AI 正式发布 Mistral-Finetune,一款专为其开源模型打造的微调工具包。通过 LoRA 与 QLoRA 等参数高效方法,该工具大幅降低企业定制门槛,但仅支持自家模型的策略,也引发了关于生态锁定与社区采纳的深层讨Tinker Cookbook:重塑开源AI定制化的后训练实战手册一个名为Tinker Cookbook的GitHub仓库,凭借超过3400颗星标,正迅速成为开源大语言模型后训练的权威指南。AINews深入解析这套系统化“食谱”如何降低Llama、Mistral等模型的定制门槛,重塑AI应用开发格局。

常见问题

GitHub 热点“GLM-130B: China's Open-Source 130B Bilingual Model Challenges GPT-3”主要讲了什么?

In a landscape dominated by proprietary behemoths like GPT-4 and Claude, GLM-130B stands as a rare counterpoint: a fully open-weight, 130-billion-parameter model trained on both Ch…

这个 GitHub 项目在“GLM-130B vs GPT-3 benchmark comparison”上为什么会引发关注?

GLM-130B's architecture is a deliberate departure from the standard GPT-style decoder-only or BERT-style encoder-only designs. It adopts a unified framework based on the General Language Model (GLM) approach, which intro…

从“How to run GLM-130B on a single GPU”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 7653,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。