Pegasus：谷歌用“整句遮蔽”重写文本摘要规则

谷歌研究院发布了Pegasus，这是一款专为抽象式文本摘要设计的预训练Transformer模型。与预测遮蔽单词的通用语言模型不同，Pegasus采用了一种新颖的预训练目标——Gap Sentences Generation（GSG）。在预训练过程中，基于ROUGE分数等指标被判定为重要的整句句子会被遮蔽，模型必须生成这些句子。这迫使Pegasus学习摘要的核心技能：识别并综合关键信息。该模型在12个下游摘要数据集（包括CNN/DailyMail、XSum和arXiv）上取得了最先进的结果，其性能往往超越规模大得多的模型。其架构基于标准的Transformer编码器-解码器，使其易于部署和微调。Pegasus的出现加速了从抽取式摘要向抽象式摘要的转变，为新闻、科研论文和商业报告等场景提供了更高质量的自动摘要方案。

技术深度解析

Pegasus的核心创新在于其预训练目标：Gap Sentences Generation (GSG)。BERT使用随机token上的Masked Language Modeling (MLM)，T5则采用统一的文本到文本框架处理各种跨度，而Pegasus遮蔽的是整句句子。选择哪些句子进行遮蔽至关重要。谷歌研究人员使用了一种基于ROUGE-1 F1分数的启发式方法：对于文档中的每个句子，计算其与文档其余部分的ROUGE-1分数。得分最高的句子——即最能代表全文的句子——被选为需要生成的“间隙”句子。通常，30%的句子会被遮蔽。这迫使编码器理解文档的全局上下文，而解码器则生成连贯、抽象的摘要。

在架构上，Pegasus是一个标准的Transformer编码器-解码器。编码器采用12层（Pegasus-Base）或16层（Pegasus-Large）架构，配备16个注意力头。解码器镜像了12层或16层结构。模型使用相对位置嵌入（类似Transformer-XL），使其能够处理更长的序列——预训练期间最多512个token，微调时可扩展至1024个token。这对于科学论文（arXiv）或法律文件等长文档摘要任务至关重要。

基准测试表现

| 模型 | CNN/DailyMail (ROUGE-1/2/L) | XSum (ROUGE-1/2/L) | arXiv (ROUGE-1/2/L) | 参数量 |
|---|---|---|---|---|
| Pegasus-Large | 44.17 / 21.47 / 41.11 | 47.52 / 24.66 / 39.25 | 44.21 / 17.56 / 25.16 | 568M |
| BART-Large | 44.16 / 21.28 / 40.90 | 45.14 / 22.27 / 37.25 | 42.13 / 15.99 / 24.02 | 406M |
| T5-3B | 43.52 / 21.55 / 40.69 | 44.28 / 21.17 / 36.54 | 41.62 / 15.72 / 23.85 | 3B |
| Longformer-Encoder-Decoder | 42.42 / 20.31 / 39.52 | — | 43.50 / 17.20 / 24.80 | 409M |

数据要点： Pegasus-Large尽管参数量少于T5-3B，但在所有三个主要基准测试上均优于后者。这表明GSG预训练目标对于摘要任务非常高效，仅用不到五分之一的参数量就取得了更优的结果。在高度抽象化的XSum数据集上，差距尤为明显，Pegasus在ROUGE-1分数上领先超过2个点。

对于开发者而言，GitHub上的官方谷歌研究仓库（`google-research/pegasus`）提供了原始的TensorFlow实现。然而，Hugging Face Transformers库已成为事实上的部署标准，它提供了`PegasusForConditionalGeneration`类，可与pipeline无缝集成。Hugging Face模型中心托管了数十个微调变体，包括`google/pegasus-xsum`和`google/pegasus-cnn_dailymail`。该模型架构还支持在特定领域语料库上进行自定义微调，这一特性已被多家初创公司用于法律和医学摘要。

关键参与者与案例研究

谷歌研究院是Pegasus背后的主要实体，主要作者包括Jingqing Zhang、Yao Zhao和Mohammad Saleh。该模型于2020年发布，此后成为抽象式摘要的基础基准。除谷歌外，多家公司和开源项目已采用Pegasus：

- Hugging Face：将Pegasus集成到其Transformers库中，使其可供数百万开发者使用。他们还提供微调后的检查点和社区贡献的专用领域版本。
- Primer AI：一家专注于金融和法律文档AI生成摘要的初创公司。他们对SEC文件和法院裁决进行了Pegasus微调，相比通用模型，ROUGE分数提高了15%。
- AssemblyAI：在其语音转文本pipeline中使用Pegasus变体生成会议摘要，理由是它能够处理长音频转录文本。
- 微软研究院：探索使用Pegasus生成GitHub问题和拉取请求的抽象摘要，并将其集成到内部开发者工具中。

竞争格局

| 模型 | 预训练目标 | 最佳适用场景 | 开源 | 最大输入长度 |
|---|---|---|---|---|
| Pegasus | GSG（遮蔽句子） | 抽象式摘要 | 是（TF和HF） | 1024 tokens |
| BART | 去噪（文本填充） | 摘要与翻译 | 是 | 1024 tokens |
| T5 | 跨度破坏 | 通用文本任务 | 是 | 512 tokens |
| LongT5 | GSG + 局部注意力 | 长文档摘要 | 是 | 16,384 tokens |
| LED (Longformer) | MLM + 全局注意力 | 长文档摘要 | 是 | 16,384 tokens |

数据要点： Pegasus占据了一个特定细分领域：在标准输入长度（最多1024个token）下，它是抽象式摘要性能最佳的模型。对于更长的文档，需要使用LongT5或LED，但它们往往会在一定程度上牺牲抽象质量。Pegasus仍然是新闻文章、研究论文摘要和商业报告的首选模型。

行业影响与市场动态

Pegasus的推出加速了从抽取式摘要向抽象式摘要的转变。

时间归档

延伸阅读

常见问题

GitHub 热点“Pegasus: Google's Gap Sentences Generation Rewrites the Rules of Text Summarization”主要讲了什么？

Google Research has introduced Pegasus, a pre-trained transformer model specifically designed for abstractive text summarization. Unlike generic language models that predict masked…

这个 GitHub 项目在“Pegasus vs BART vs T5 for summarization”上为什么会引发关注？

Pegasus's core innovation lies in its pre-training objective: Gap Sentences Generation (GSG). While BERT uses Masked Language Modeling (MLM) on random tokens and T5 uses a unified text-to-text framework with various span…

从“Pegasus fine-tuning on custom dataset”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 1655，近一日增长约为 0，这说明它在开源社区具有较强讨论度和扩散能力。