技术深度解析
Transformer从机器翻译论文到通用智能基座的历程,是一个累积性、实用主义工程的故事,而非单一灵光乍现的时刻。2017年的原始论文《Attention Is All You Need》提出了一种新颖架构,用自注意力机制取代了循环神经网络。核心创新是多头注意力模块,它允许模型并行地权衡输入序列不同部分的重要性,比RNN更高效地捕捉长距离依赖。该架构由编码器-解码器堆栈组成,每个模块包含自注意力、前馈层和层归一化,全部通过残差连接相连。
第一个重大演变是转向仅解码器的自回归模型。OpenAI的GPT系列证明,在大量互联网文本上训练一个Transformer解码器——训练目标是预测序列中的下一个token——可以产生具有惊人生成能力的模型。这在当时并非显而易见的选择;许多研究人员认为编码器-解码器结构是必要的。2019年的GPT-2论文显示,将模型扩展到15亿参数可以生成连贯文本,但真正的突破来自2020年的GPT-3,它扩展到1750亿参数,并展现出上下文学习等涌现能力。
缩放定律的发现是关键转折点。2020年,OpenAI发表论文表明,模型性能与参数、数据量和计算量之间存在可预测的幂律关系。这意味着向Transformer投入更多资源将可靠地带来更好的性能——这一发现引发了军备竞赛。DeepMind在2022年的Chinchilla论文进一步细化,指出大多数模型训练不足:对于给定的计算预算,最佳比例是在更多数据上训练更小的模型。这催生了当前一代模型,如LLaMA(700亿参数,在2万亿token上训练)和Mistral(70亿参数,在8万亿token上训练),它们以更小的规模实现了GPT-3.5级别的性能。
| 模型 | 参数 | 训练Token数 | MMLU分数 | 每百万Token输入成本 |
|---|---|---|---|---|
| GPT-3 (2020) | 175B | 300B | 43.9 | $0.02 (旧版) |
| LLaMA 2 70B (2023) | 70B | 2T | 68.9 | $0.70 |
| Mistral 7B (2023) | 7B | 8T | 64.1 | $0.15 |
| GPT-4 (2023) | ~1.8T (MoE) | ~13T (估算) | 86.4 | $10.00 |
| Claude 3.5 Sonnet (2024) | — | — | 88.7 | $3.00 |
数据要点: Chinchilla缩放定律清晰可见。Mistral 7B仅有70亿参数,但在8万亿token上训练,在MMLU上超越了原始1750亿参数的GPT-3(64.1 vs 43.9)。这证明数据质量和数量可以替代原始参数数量,使得更小、更便宜的模型能够与更大的前辈竞争。
在对齐方面,关键创新是基于人类反馈的强化学习(RLHF),由OpenAI在其InstructGPT论文(2022年)中提出。该过程包括三个阶段:(1)在人类编写的示范上进行监督微调,(2)根据比较模型输出的人类偏好训练奖励模型,(3)使用近端策略优化(PPO)针对奖励模型优化语言模型。这解决了模型“擅长预测下一个token但难以遵循指令”的根本问题。Anthropic的Constitutional AI和Google的RLHF变体随后改进了这种方法,减少了对大量人工标注的需求。
推理优化同样至关重要。Transformer的自注意力机制在序列长度上具有二次复杂度,使得长上下文推理极其昂贵。关键的工程突破是KV缓存:在自回归生成过程中,模型缓存先前token的Key和Value矩阵,避免重新计算。这将每步的时间复杂度从O(n³)降低到O(n²)。推测解码由Google提出并由开源社区改进,使用较小的草稿模型并行生成多个token,然后由主模型验证,实现2-3倍的加速。GPTQ和AWQ等量化技术将模型权重从16位降至4位,使得LLaMA-2-70B等模型能够在单个消费级GPU上运行,且精度损失极小。
一个值得注意的开源项目是vLLM仓库(GitHub上超过3万星),它实现了PagedAttention——一种内存管理系统,以非连续内存块处理KV缓存,实现近乎零浪费和比朴素实现高2-4倍的吞吐量。另一个是llama.cpp(超过6万星),它使得在CPU和低端GPU上运行量化LLaMA模型成为可能,从而普及了LLM的访问。
关键参与者与案例研究
Transformer到LLM的演进由大型实验室和敏捷初创公司共同推动,各自采取了不同的策略。