从序列模型到推理引擎：Transformer如何成为LLM霸主

2026年6月28日 16:07 AINews Hacker News June 2026

来源：Hacker News Transformer architecture large language model 归档：June 2026

Transformer，这个最初为机器翻译设计的序列模型，如今已成为所有主流大语言模型的基础架构。本文追溯了从缩放定律、自回归预训练、RLHF对齐到推理工程的关键创新，揭示了一篇学术论文如何演变为驱动整个AI产业的引擎。

Transformer架构于2017年提出，最初只是机器翻译领域一个颇具竞争力但并非革命性的方案。其真正潜力通过一系列经验发现和工程突破得以释放，将序列到序列模型转变为通用推理引擎。第一个关键飞跃是缩放定律的发现：OpenAI等机构的研究人员发现，当模型参数、训练数据和计算量同步增长时，模型开始展现出涌现能力——上下文学习、思维链推理，甚至基础算术——这些能力并非显式编程所得。这纯粹是经验性发现，理论并未预测。第二个飞跃是对齐：指令微调和基于人类反馈的强化学习（RLHF）解决了模型“擅长预测下一个token但难以遵循指令”的根本问题。第三个飞跃是推理工程：KV缓存、推测解码和量化技术使大规模Transformer模型得以在消费级硬件上高效运行。这些创新共同将Transformer从一篇学术论文推向了整个AI产业的基石。

技术深度解析

Transformer从机器翻译论文到通用智能基座的历程，是一个累积性、实用主义工程的故事，而非单一灵光乍现的时刻。2017年的原始论文《Attention Is All You Need》提出了一种新颖架构，用自注意力机制取代了循环神经网络。核心创新是多头注意力模块，它允许模型并行地权衡输入序列不同部分的重要性，比RNN更高效地捕捉长距离依赖。该架构由编码器-解码器堆栈组成，每个模块包含自注意力、前馈层和层归一化，全部通过残差连接相连。

第一个重大演变是转向仅解码器的自回归模型。OpenAI的GPT系列证明，在大量互联网文本上训练一个Transformer解码器——训练目标是预测序列中的下一个token——可以产生具有惊人生成能力的模型。这在当时并非显而易见的选择；许多研究人员认为编码器-解码器结构是必要的。2019年的GPT-2论文显示，将模型扩展到15亿参数可以生成连贯文本，但真正的突破来自2020年的GPT-3，它扩展到1750亿参数，并展现出上下文学习等涌现能力。

缩放定律的发现是关键转折点。2020年，OpenAI发表论文表明，模型性能与参数、数据量和计算量之间存在可预测的幂律关系。这意味着向Transformer投入更多资源将可靠地带来更好的性能——这一发现引发了军备竞赛。DeepMind在2022年的Chinchilla论文进一步细化，指出大多数模型训练不足：对于给定的计算预算，最佳比例是在更多数据上训练更小的模型。这催生了当前一代模型，如LLaMA（700亿参数，在2万亿token上训练）和Mistral（70亿参数，在8万亿token上训练），它们以更小的规模实现了GPT-3.5级别的性能。

| 模型 | 参数 | 训练Token数 | MMLU分数 | 每百万Token输入成本 |
|---|---|---|---|---|
| GPT-3 (2020) | 175B | 300B | 43.9 | $0.02 (旧版) |
| LLaMA 2 70B (2023) | 70B | 2T | 68.9 | $0.70 |
| Mistral 7B (2023) | 7B | 8T | 64.1 | $0.15 |
| GPT-4 (2023) | ~1.8T (MoE) | ~13T (估算) | 86.4 | $10.00 |
| Claude 3.5 Sonnet (2024) | — | — | 88.7 | $3.00 |

数据要点： Chinchilla缩放定律清晰可见。Mistral 7B仅有70亿参数，但在8万亿token上训练，在MMLU上超越了原始1750亿参数的GPT-3（64.1 vs 43.9）。这证明数据质量和数量可以替代原始参数数量，使得更小、更便宜的模型能够与更大的前辈竞争。

在对齐方面，关键创新是基于人类反馈的强化学习（RLHF），由OpenAI在其InstructGPT论文（2022年）中提出。该过程包括三个阶段：（1）在人类编写的示范上进行监督微调，（2）根据比较模型输出的人类偏好训练奖励模型，（3）使用近端策略优化（PPO）针对奖励模型优化语言模型。这解决了模型“擅长预测下一个token但难以遵循指令”的根本问题。Anthropic的Constitutional AI和Google的RLHF变体随后改进了这种方法，减少了对大量人工标注的需求。

推理优化同样至关重要。Transformer的自注意力机制在序列长度上具有二次复杂度，使得长上下文推理极其昂贵。关键的工程突破是KV缓存：在自回归生成过程中，模型缓存先前token的Key和Value矩阵，避免重新计算。这将每步的时间复杂度从O(n³)降低到O(n²)。推测解码由Google提出并由开源社区改进，使用较小的草稿模型并行生成多个token，然后由主模型验证，实现2-3倍的加速。GPTQ和AWQ等量化技术将模型权重从16位降至4位，使得LLaMA-2-70B等模型能够在单个消费级GPU上运行，且精度损失极小。

一个值得注意的开源项目是vLLM仓库（GitHub上超过3万星），它实现了PagedAttention——一种内存管理系统，以非连续内存块处理KV缓存，实现近乎零浪费和比朴素实现高2-4倍的吞吐量。另一个是llama.cpp（超过6万星），它使得在CPU和低端GPU上运行量化LLaMA模型成为可能，从而普及了LLM的访问。

关键参与者与案例研究

Transformer到LLM的演进由大型实验室和敏捷初创公司共同推动，各自采取了不同的策略。

时间归档

常见问题

这次模型发布“From Sequence Model to Reasoning Engine: The Transformer's Journey to LLM Dominance”的核心内容是什么？

The Transformer architecture, introduced in 2017, was initially a competitive but not revolutionary approach to machine translation. Its true potential emerged through a series of…

从“What is the difference between encoder-only and decoder-only Transformer models?”看，这个模型发布为什么重要？

The Transformer's journey from a machine translation paper to the backbone of general intelligence is a story of cumulative, pragmatic engineering rather than a single eureka moment. The original 2017 paper, "Attention I…

围绕“How does the KV cache reduce inference cost in LLMs?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

从序列模型到推理引擎：Transformer如何成为LLM霸主

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题