从序列模型到推理引擎:Transformer如何成为LLM霸主

Hacker News June 2026
来源:Hacker NewsTransformer architecturelarge language model归档:June 2026
Transformer,这个最初为机器翻译设计的序列模型,如今已成为所有主流大语言模型的基础架构。本文追溯了从缩放定律、自回归预训练、RLHF对齐到推理工程的关键创新,揭示了一篇学术论文如何演变为驱动整个AI产业的引擎。

Transformer架构于2017年提出,最初只是机器翻译领域一个颇具竞争力但并非革命性的方案。其真正潜力通过一系列经验发现和工程突破得以释放,将序列到序列模型转变为通用推理引擎。第一个关键飞跃是缩放定律的发现:OpenAI等机构的研究人员发现,当模型参数、训练数据和计算量同步增长时,模型开始展现出涌现能力——上下文学习、思维链推理,甚至基础算术——这些能力并非显式编程所得。这纯粹是经验性发现,理论并未预测。第二个飞跃是对齐:指令微调和基于人类反馈的强化学习(RLHF)解决了模型“擅长预测下一个token但难以遵循指令”的根本问题。第三个飞跃是推理工程:KV缓存、推测解码和量化技术使大规模Transformer模型得以在消费级硬件上高效运行。这些创新共同将Transformer从一篇学术论文推向了整个AI产业的基石。

技术深度解析

Transformer从机器翻译论文到通用智能基座的历程,是一个累积性、实用主义工程的故事,而非单一灵光乍现的时刻。2017年的原始论文《Attention Is All You Need》提出了一种新颖架构,用自注意力机制取代了循环神经网络。核心创新是多头注意力模块,它允许模型并行地权衡输入序列不同部分的重要性,比RNN更高效地捕捉长距离依赖。该架构由编码器-解码器堆栈组成,每个模块包含自注意力、前馈层和层归一化,全部通过残差连接相连。

第一个重大演变是转向仅解码器的自回归模型。OpenAI的GPT系列证明,在大量互联网文本上训练一个Transformer解码器——训练目标是预测序列中的下一个token——可以产生具有惊人生成能力的模型。这在当时并非显而易见的选择;许多研究人员认为编码器-解码器结构是必要的。2019年的GPT-2论文显示,将模型扩展到15亿参数可以生成连贯文本,但真正的突破来自2020年的GPT-3,它扩展到1750亿参数,并展现出上下文学习等涌现能力。

缩放定律的发现是关键转折点。2020年,OpenAI发表论文表明,模型性能与参数、数据量和计算量之间存在可预测的幂律关系。这意味着向Transformer投入更多资源将可靠地带来更好的性能——这一发现引发了军备竞赛。DeepMind在2022年的Chinchilla论文进一步细化,指出大多数模型训练不足:对于给定的计算预算,最佳比例是在更多数据上训练更小的模型。这催生了当前一代模型,如LLaMA(700亿参数,在2万亿token上训练)和Mistral(70亿参数,在8万亿token上训练),它们以更小的规模实现了GPT-3.5级别的性能。

| 模型 | 参数 | 训练Token数 | MMLU分数 | 每百万Token输入成本 |
|---|---|---|---|---|
| GPT-3 (2020) | 175B | 300B | 43.9 | $0.02 (旧版) |
| LLaMA 2 70B (2023) | 70B | 2T | 68.9 | $0.70 |
| Mistral 7B (2023) | 7B | 8T | 64.1 | $0.15 |
| GPT-4 (2023) | ~1.8T (MoE) | ~13T (估算) | 86.4 | $10.00 |
| Claude 3.5 Sonnet (2024) | — | — | 88.7 | $3.00 |

数据要点: Chinchilla缩放定律清晰可见。Mistral 7B仅有70亿参数,但在8万亿token上训练,在MMLU上超越了原始1750亿参数的GPT-3(64.1 vs 43.9)。这证明数据质量和数量可以替代原始参数数量,使得更小、更便宜的模型能够与更大的前辈竞争。

在对齐方面,关键创新是基于人类反馈的强化学习(RLHF),由OpenAI在其InstructGPT论文(2022年)中提出。该过程包括三个阶段:(1)在人类编写的示范上进行监督微调,(2)根据比较模型输出的人类偏好训练奖励模型,(3)使用近端策略优化(PPO)针对奖励模型优化语言模型。这解决了模型“擅长预测下一个token但难以遵循指令”的根本问题。Anthropic的Constitutional AI和Google的RLHF变体随后改进了这种方法,减少了对大量人工标注的需求。

推理优化同样至关重要。Transformer的自注意力机制在序列长度上具有二次复杂度,使得长上下文推理极其昂贵。关键的工程突破是KV缓存:在自回归生成过程中,模型缓存先前token的Key和Value矩阵,避免重新计算。这将每步的时间复杂度从O(n³)降低到O(n²)。推测解码由Google提出并由开源社区改进,使用较小的草稿模型并行生成多个token,然后由主模型验证,实现2-3倍的加速。GPTQ和AWQ等量化技术将模型权重从16位降至4位,使得LLaMA-2-70B等模型能够在单个消费级GPU上运行,且精度损失极小。

一个值得注意的开源项目是vLLM仓库(GitHub上超过3万星),它实现了PagedAttention——一种内存管理系统,以非连续内存块处理KV缓存,实现近乎零浪费和比朴素实现高2-4倍的吞吐量。另一个是llama.cpp(超过6万星),它使得在CPU和低端GPU上运行量化LLaMA模型成为可能,从而普及了LLM的访问。

关键参与者与案例研究

Transformer到LLM的演进由大型实验室和敏捷初创公司共同推动,各自采取了不同的策略。

更多来自 Hacker News

谷歌限制Meta调用Gemini:AI基础设施战争正式打响在一项史无前例的行动中,谷歌限制了Meta调用其Gemini AI模型的能力,强制执行硬性用量上限,这已打乱了Meta的产品开发时间线。据两家公司内部多位消息人士证实,这一决定源于谷歌无法调配足够的NVIDIA H100和B200 GPU集Cerberus:开源防火墙,驯服失控AI代理的运行时守护者Cerberus在AI代理发展的关键转折点问世。当自主代理从实验性聊天机器人进化为发送邮件、修改数据库、执行Shell命令的生产系统时,每一次工具调用都可能成为攻击面或操作失误。Cerberus并不试图让代理更聪明或更道德,而是承认其固有不深度学习复活Foveon:Mac应用通过RAW转换模拟适马传奇传感器多年来,适马的Foveon X3传感器一直是摄影师中的小众宠儿,他们珍视其独特的色彩再现——一种绘画般的、近乎油画的质感,拥有平滑的过渡和非凡的空间深度。与使用色彩滤镜阵列来猜测每个像素三分之二色彩信息的传统拜耳传感器不同,Foveon垂直查看来源专题页Hacker News 已收录 5339 篇文章

相关专题

Transformer architecture47 篇相关文章large language model88 篇相关文章

时间归档

June 20262847 篇已发布文章

延伸阅读

超越文本:大语言模型如何进化为科学与工程的通用模拟器大语言模型正经历一场根本性变革——从文本处理器蜕变为能够模拟经济系统、物理实验等复杂过程的通用模拟器。这一转变重新定义了AI的角色,有望让模拟技术民主化,仅凭自然语言即可触达。计数悖论:为何大模型能写小说却数不到50?大语言模型能生成整部小说,却连从1数到50都磕磕绊绊。AINews深入剖析这一悖论的架构根源、对商业应用的影响,以及正在涌现的弥合鸿沟的混合方法。隐形战场:推理效率如何定义AI的商业未来构建更大规模语言模型的竞赛长期占据头条,但一场关于推理效率的静默革命,正成为决定商业成败的关键。AINews深入探究量化、推测解码与KV缓存管理等创新技术,如何将延迟从秒级压缩至毫秒级,解锁实时应用并重塑商业模式。超越“下一个词预测”:大语言模型远非自动补全引擎将大语言模型称作“下一个词预测器”,就像把国际象棋大师称为“棋子移动者”——技术上没错,却极具误导性。AINews深入探究这一功能描述如何限制我们的想象力,以及业界为何必须正视其表面之下涌现的智能。

常见问题

这次模型发布“From Sequence Model to Reasoning Engine: The Transformer's Journey to LLM Dominance”的核心内容是什么?

The Transformer architecture, introduced in 2017, was initially a competitive but not revolutionary approach to machine translation. Its true potential emerged through a series of…

从“What is the difference between encoder-only and decoder-only Transformer models?”看,这个模型发布为什么重要?

The Transformer's journey from a machine translation paper to the backbone of general intelligence is a story of cumulative, pragmatic engineering rather than a single eureka moment. The original 2017 paper, "Attention I…

围绕“How does the KV cache reduce inference cost in LLMs?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。