GLM:重新定义统一NLP架构的中文语言模型

GitHub June 2026
⭐ 3561
来源:GitHub归档:June 2026
清华大学THUDM团队提出的GLM(通用语言模型)开创了一种新颖的自回归填空范式,将自然语言理解与生成统一在单一框架中。本文深入剖析其架构设计、对ChatGLM系列的影响,以及至今仍定义其技术遗产的权衡取舍。

由清华大学THUDM团队开发的通用语言模型(GLM)代表了语言模型处理理解与生成二元性的一次根本性转变。与主流的仅编码器(BERT)或仅解码器(GPT)架构不同,GLM提出了一种统一的自回归填空目标:随机遮蔽文本片段并以自回归方式生成它们。这一简单而强大的思想使单个模型无需架构修改即可在分类、序列标注和开放式生成任务上表现出色。原始GLM论文及代码在GitHub上以thudm/glm仓库发布后迅速获得超过3500颗星,标志着NLP研究界的强烈兴趣。其最重要的遗产是ChatGLM系列——一个基于GLM架构构建的对话模型家族,已成为中国最广泛采用的开源大语言模型之一。GLM的核心创新在于其训练目标:模型不是像BERT那样独立预测被遮蔽的标记,也不是像GPT那样从左到右生成文本,而是随机从输入中采样文本片段,用[MASK]标记替换它们,然后以自回归方式按正确顺序生成被遮蔽的内容。这通过双流注意力机制实现:一个内容流看到所有标记(包括被遮蔽的),一个查询流只看到未被遮蔽的标记和被遮蔽标记的位置。模型被训练为在给定未遮蔽上下文的情况下最大化被遮蔽片段的似然。在架构上,GLM采用编码器-解码器混合设计:输入像BERT一样进行双向编码,但输出像GPT一样进行自回归生成。这不是传统的编码器-解码器(如T5),而是一个具有修改后注意力模式的单一Transformer。GLM使用泊松分布采样片段长度,平均为3个标记,这鼓励模型同时学习局部和长距离依赖。相对位置编码被用于有效处理可变长度片段。相同的Transformer权重用于编码和解码,使模型参数高效。原始GLM论文中,335M参数的基础模型在80GB文本上训练,1.3B参数的大模型在160GB文本上训练。在性能基准测试中,GLM在理解任务上达到了与BERT和T5竞争的水平,同时大幅超越GPT-2。然而,由于GLM以自回归方式生成被遮蔽片段,在纯理解任务上推理速度比BERT慢,这是后来ChatGLM变体通过引入专门生成模式部分解决的关键限制。GLM的GitHub仓库包含PyTorch实现、预训练权重和微调脚本,是研究统一语言建模的研究人员的优秀资源。THUDM团队由唐杰教授领导,GLM是他们2021年发布的第一个主要语言模型。ChatGLM-6B作为GLM的直接后代,于2023年发布,在Hugging Face上获得超过1000万次下载,成为中国病毒式成功的模型。它使用相同的ABF目标,但进行了显著优化,包括多查询注意力、FlashAttention集成、量化支持和中英双语训练。在企业采用方面,由THUDM成员共同创立的智谱AI将ChatGLM商业化,推出GLM-130B,被银行、电信公司和政府机构用于文档分析、客户服务和内容审核。在学术研究中,已有超过200篇论文引用了GLM的架构。

技术深度解析

GLM的核心创新在于自回归填空(ABF)训练目标。与独立预测被遮蔽标记(如BERT)或从左到右生成文本(如GPT)不同,GLM从输入中随机采样文本片段,用[MASK]标记替换它们,然后以自回归方式按正确顺序生成被遮蔽的内容。这是通过双流注意力机制实现的:一个内容流看到所有标记(包括被遮蔽的),一个查询流只看到未被遮蔽的标记和被遮蔽标记的位置。模型被训练为在给定未遮蔽上下文的情况下最大化被遮蔽片段的似然。

架构细节:
- 编码器-解码器混合: 输入像BERT一样进行双向编码,但输出像GPT一样进行自回归生成。这不是传统的编码器-解码器(如T5),而是一个具有修改后注意力模式的单一Transformer。
- 片段破坏: GLM使用泊松分布采样片段长度,平均为3个标记。这鼓励模型同时学习局部和长距离依赖。
- 位置编码: 相对位置编码被用于有效处理可变长度片段。
- 参数共享: 相同的Transformer权重用于编码和解码,使模型参数高效。

训练细节(原始GLM论文):
- 335M参数基础模型在80GB文本上训练(英文维基百科、BookCorpus等)。
- 1.3B参数大模型在160GB文本上训练。
- 批量大小:1024,学习率:1e-4,训练200k步。
- 硬件:基础模型使用8块NVIDIA V100 GPU,大模型使用64块V100 GPU。

性能基准测试(原始GLM论文):

| 任务 | 指标 | GLM (335M) | BERT (340M) | GPT-2 (345M) | T5 (220M) |
|---|---|---|---|---|
| SuperGLUE | 平均分 | 79.8 | 80.2 | 72.8 | 80.1 |
| SQuAD 2.0 | F1 | 88.1 | 88.5 | 82.3 | 88.7 |
| CoLA | Matthews相关系数 | 62.3 | 60.5 | 45.7 | 61.8 |
| SST-2 | 准确率 | 94.8 | 94.9 | 93.2 | 95.1 |

数据要点: 尽管GLM是一个以生成为重点的模型,它在理解任务(SuperGLUE、SQuAD)上达到了竞争性表现。它大幅超越GPT-2,并且与BERT和T5的差距在1-2个百分点以内,证明了统一目标的有效性。

推理效率权衡: 由于GLM以自回归方式生成被遮蔽片段,在纯理解任务(如分类)上推理速度比BERT慢。即使对于简单的标签预测,模型也必须生成标记。这是后来ChatGLM变体通过引入专门生成模式部分解决的关键限制。

GitHub仓库: 原始`thudm/glm`仓库(3561颗星)包含PyTorch实现、预训练权重以及用于SuperGLUE、SQuAD和生成任务的微调脚本。它文档齐全,是研究统一语言建模的研究人员的优秀资源。

关键参与者与案例研究

THUDM(清华大学数据挖掘组): 由唐杰教授领导,该团队一直处于中国NLP研究的前沿。GLM是他们2021年发布的第一个主要语言模型。该团队的策略是发布可由社区微调的开源模型,构建强大的开发者生态系统。

ChatGLM系列: 作为GLM的直接后代,ChatGLM-6B(2023年发布)在中国成为病毒式成功的模型,在Hugging Face上获得超过1000万次下载。它使用相同的ABF目标,但进行了显著优化:
- 多查询注意力 以减少内存占用。
- FlashAttention 集成以实现更快的训练。
- 量化支持(INT4/INT8)以在消费级GPU上运行。
- 中英双语训练 在1.4万亿标记上。

与竞争性中文模型的比较:

| 模型 | 参数 | 训练数据 | 开源 | 关键架构 | MMLU(中文) | C-Eval |
|---|---|---|---|---|---|
| ChatGLM-6B | 6B | 1.4T标记 | 是 | GLM (ABF) | 51.2 | 63.5 |
| Baichuan-7B | 7B | 1.2T标记 | 是 | 仅解码器 | 52.8 | 64.2 |
| Qwen-7B | 7B | 2.4T标记 | 是 | 仅解码器 | 54.1 | 65.8 |
| LLaMA-2-7B | 7B | 2.0T标记 | 是 | 仅解码器 | 45.3 (中文) | 56.7 |

数据要点: ChatGLM-6B尽管是此比较中最小的模型,但与更大的中文模型相比毫不逊色。其ABF架构使其在需要理解和生成的任务(如对话、摘要)中具有优势,而仅解码器模型在纯知识基准测试上略胜一筹。

案例研究:中国企业的采用
- 智谱AI(由THUDM成员共同创立)将ChatGLM商业化,推出GLM-130B,一个130B参数的模型,被银行、电信公司和政府机构用于文档分析、客户服务和内容审核。
- 学术研究: 已有超过200篇论文引用了GLM的架构,许多论文提出了变体(例如,GL

更多来自 GitHub

Litmus:重塑Kubernetes韧性的开源混沌工程平台Litmus托管于github.com/litmuschaos/litmus,拥有超过5400颗星,是一款专为Kubernetes环境设计的开源混沌工程平台。它使SRE和开发者能够向集群中注入受控故障——如Pod终止、网络延迟、CPU飙升和Crosspoint-Reader固件:以开源精准之力,唤醒E-Ink阅读器新生Crosspoint-Reader是一个针对Xteink X3和X4电子纸显示阅读器的重要开源固件项目,旨在解决长期困扰用户的封闭、性能低下的出厂固件问题。该项目在GitHub上已获得超过5,500颗星标,并以惊人的速度每日增长,吸引了由电OpenLess:开源语音工具如何重新定义你的打字方式OpenLess 正在用看似简单的交互重新定义语音输入范式:按住一个键说话,松开后 AI 润色完成的文本便直接出现在光标处。该项目已在 GitHub 上累计获得超过 2,491 颗星,单日新增高达 +797 颗,直击一个普遍痛点——原始语音查看来源专题页GitHub 已收录 3022 篇文章

时间归档

June 20262529 篇已发布文章

延伸阅读

AgentBench:将大模型从聊天机器人推向自主智能体的标杆基准由清华大学THUDM团队开发、被ICLR 2024收录的AgentBench,是一个在八个真实交互环境中评估大语言模型作为自主智能体能力的综合性基准。它标志着从静态问答到动态多轮任务完成的范式转变,为快速演进的智能体生态系统提供了标准化标尺苹果AIM视觉模型:自回归图像建模或将重塑AI格局苹果公司开源了其AIM系列视觉模型,将自回归图像建模(AIM)应用于视觉表征学习。这一研究项目已在GitHub上发布,提供AIMv1和AIMv2的代码与预训练权重,或将为视觉基础模型开辟全新范式。GLM-130B:中国开源1300亿参数双语模型,正面挑战GPT-3霸权智谱AI与清华KEG联合推出的GLM-130B,一个拥有1300亿参数的中英双语开源模型,已悄然成为美国之外最具影响力的大语言模型之一。其独特的自回归空白填充训练范式与面向学术研究的完整权重开放,正在挑战闭源巨头的统治地位。LongBench v2:衡量AI长文本能力的全新黄金标准清华大学THUDM团队推出的LongBench v2,作为长文本基准测试的最新迭代,已被ACL 2025接收。新版引入更困难、更现实的任务,揭示了模型宣称的上下文窗口与实际性能之间的差距,为行业树立了新标杆。

常见问题

GitHub 热点“GLM: The Chinese Language Model That Redefined Unified NLP Architecture”主要讲了什么?

The General Language Model (GLM), developed by Tsinghua University's THUDM team, represents a foundational shift in how language models approach the duality of understanding and ge…

这个 GitHub 项目在“How to fine-tune GLM for custom classification tasks”上为什么会引发关注?

GLM's core innovation is the autoregressive blank-filling (ABF) training objective. Instead of predicting masked tokens independently (as in BERT) or generating text left-to-right (as in GPT), GLM randomly samples spans…

从“GLM vs ChatGLM: architectural differences explained”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 3561,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。