技术深度解析
GLM-130B的架构有意偏离了标准的GPT式仅解码器或BERT式仅编码器设计。它采用基于通用语言模型(GLM)方法的统一框架,将自回归空白填充作为核心训练目标。
架构与训练范式:
该模型构建在一个深度Transformer之上,拥有70层、隐藏层大小8192、128个注意力头,总计约1300亿参数。其关键创新在于如何处理训练数据。GLM并非从左到右预测下一个token,而是随机掩码不同长度的文本片段,然后根据未被掩码的上下文以及该片段内已生成的token,按顺序自回归地预测被掩码的token。这与BERT的掩码语言建模有本质区别——BERT是独立且非自回归地预测被掩码的token。它也与GPT的因果语言建模不同——GPT只能看到左侧上下文。
这种设计赋予了GLM-130B双重优势:
1. 双向上下文理解: 像BERT一样,它可以利用掩码片段两侧的上下文,从而在NLU基准测试上表现更强。
2. 生成流畅性: 像GPT一样,它在片段内顺序生成token,从而实现高质量的文本生成。
该模型在包含1.4万亿token的大规模双语语料库上训练,中英文比例约为50:50。训练使用了96块NVIDIA A100 GPU(80GB),耗时约60天,采用ZeRO优化和3D并行(数据并行、张量并行、流水线并行)来管理1300亿参数的规模。一个关键的工程细节是使用了混合精度训练(FP16),并配合精细的损失缩放以避免梯度下溢——这是此规模下常见的问题。
基准测试表现:
GLM-130B在一系列NLU和生成任务上与GPT-3(1750亿参数)及其他同期模型进行了评估。发表于ICLR 2023论文的结果令人瞩目:
| 基准测试 | 任务类型 | GLM-130B | GPT-3 (175B) | BLOOM (176B) |
|---|---|---|---|---|
| LAMBADA | 语言建模(困惑度) | 10.16 | 15.24 | 13.14 |
| BoolQ | NLU(准确率) | 82.3% | 80.5% | 78.1% |
| RACE-h | 阅读理解(准确率) | 72.8% | 68.0% | 65.4% |
| XSum | 摘要(ROUGE-L) | 22.1 | 21.7 | 20.3 |
| WMT-16 (英-德) | 翻译(BLEU) | 28.4 | 27.1 | 26.8 |
数据要点: 尽管参数比GPT-3少450亿,GLM-130B在多个NLU和生成基准测试上仍优于GPT-3。这表明其自回归空白填充目标在某些任务上参数效率更高,尤其是那些需要深度双向理解的任务,如阅读理解(RACE-h)和常识推理(BoolQ)。在LAMBADA上的困惑度改进尤为显著,表明其具有更优的长距离依赖建模能力。
开源实现:
完整的模型权重和推理代码已在GitHub仓库`THUDM/GLM-130B`中发布。该仓库已获得超过7600颗星,并包含使用INT8量化在单块A100(80GB)上运行推理的详细说明,这可将内存占用从约260GB降至约70GB。这种量化方法采用自定义的后训练量化技术,是一项重要的工程贡献,使没有大规模GPU集群的研究人员也能使用该模型。该仓库还提供了在下游任务上进行微调的脚本,尽管从头开始完整训练对大多数实验室来说仍然难以实现。
要点总结: GLM-130B的架构不仅仅是一个有趣的尝试;它代表了LLM设计中的第三条真正路径,证明混合训练目标可以在理解和生成任务上取得具有竞争力甚至更优的结果。其开源发布,尤其是INT8量化版本,降低了全球研究者的入门门槛。
关键参与者与案例研究
GLM-130B的开发主要由两个实体完成:智谱AI(北京)和清华大学知识工程组(KEG),由唐杰教授领导。
智谱AI: 智谱AI于2019年作为清华大学的衍生公司成立,迅速成为中国领先的AI初创公司之一。它已获得大量融资,包括2022年据报道超过1亿美元的B轮融资,投资者包括红杉中国和高瓴资本。该公司的战略围绕开源基础模型以构建生态系统,然后通过企业API服务和定制模型微调实现商业化。GLM-130B是该战略的旗舰产品。智谱还开发了较小的GLM-10B以及更近期的GLM-4系列,后者为其商业API提供支持。
清华KEG: 唐杰教授团队在知识图谱研究和大规模预训练方面有着悠久的历史。他们此前开发了CogView文本到图像模型和OAG-BER