Noam Shazeer拒27亿美元挽留：Transformer时代终结的序幕

一项震动AI行业的决定：Noam Shazeer——2017年提出Transformer架构的八位联合作者之一——已永久离开谷歌。据报，这家搜索巨头为其开出了价值27亿美元的留任方案，这一数字凸显了Shazeer作为当今大语言模型底层技术架构师的独特地位。然而，即便这笔令人咋舌的巨款也未能留住他。Shazeer的离开无关金钱，而是信念。他坚信，Transformer虽已改变世界，却并非神经网络设计的终极答案。外界普遍预期，他的下一个项目将瞄准后Transformer范式，可能涉及替代性注意力机制、状态空间模型或混合架构。

技术深度解析

Transformer架构，由《Attention Is All You Need》（Vaswani等人，2017）提出，通过自注意力机制取代循环神经网络，彻底革新了序列建模。其核心创新——缩放点积注意力——计算序列中所有token之间的两两交互，实现了并行化与长程依赖捕捉。然而，自注意力相对于序列长度n的二次复杂度O(n²)，在模型扩展至数百万token时已成为关键瓶颈。

Shazeer本人的贡献远不止于原始论文。他是混合专家（MoE）层论文《Outrageously Large Neural Networks》（2017）的第一作者，该论文引入了稀疏门控MoE，以在不等比增加算力的前提下扩展模型容量。他还联合开发了用于分布式训练的Mesh-TensorFlow库，并为谷歌的Pathways系统做出了贡献。他的离开表明，他看到了Transformer-MoE范式的根本性局限。

多种后Transformer架构正在争夺主导地位：

- 状态空间模型（SSMs）： 像Mamba（Albert Gu与Tri Dao，2023）这样的模型用选择性状态空间机制取代注意力，实现了序列长度的线性复杂度。Mamba在语言建模基准上表现出竞争力，同时在长序列推理中速度显著更快。其官方GitHub仓库（state-spaces/mamba）已获超过15,000颗星。
- RWKV： 结合了RNN的效率与Transformer的训练并行性。其“时间混合”与“通道混合”机制实现了线性扩展。BlinkDL/RWKV-LM仓库已获超过12,000颗星。
- 混合架构： 像谷歌自家的PaLI和OpenAI的GPT-4（据传使用了MoE）等模型，将注意力与其他机制融合。然而，它们本质上仍基于Transformer。
- 替代性注意力机制： 线性注意力（如Performer、Linformer）和FlashAttention（Tri Dao）减少了内存与计算，但保留了二次核心。

| 架构 | 复杂度（相对于序列长度） | 推理速度（长序列） | 推理基准（MMLU） | 训练稳定性 |
|---|---|---|---|---|
| Transformer（GPT-4） | O(n²) | 慢 | 86.4 | 高 |
| Mamba（2.8B） | O(n) | 快 | 70.2 | 中 |
| RWKV（14B） | O(n) | 非常快 | 72.5 | 中 |
| 混合架构（如H3） | O(n)至O(n²) | 中等 | 75.1 | 中高 |

数据要点： 尽管Mamba和RWKV等后Transformer架构提供了显著的效率提升，但在MMLU等复杂推理基准上仍落后于Transformer。这一差距正在迅速缩小——Mamba的2.8B模型得分为70.2，而GPT-4为86.4，但计算成本仅为后者的零头。下一个突破很可能来自一种既能匹配Transformer推理能力、又能保持线性复杂度的架构。

Shazeer在MoE和分布式系统方面的深厚专长表明，他的下一个项目可能将稀疏门控与一种新的核心机制相结合，或许是一种混合方案——对短程交互使用注意力，对长程上下文使用SSM。开源社区已在尝试此类混合方案；'zamba'仓库（Zyphra/ai）将Mamba与注意力层结合。

关键人物与案例研究

Noam Shazeer 不仅是一位研究者，更是一位传奇。在Transformer论文之后，他在谷歌领导了LaMDA（对话应用语言模型）的开发，该模型为早期对话式AI提供了动力。他于2021年离开谷歌，联合创立了聊天机器人平台Character.AI，该公司以10亿美元估值融资1.5亿美元。2023年，他作为人才重新引进计划的一部分重返谷歌。他的第二次离开是决定性的。

Sam Altman 自2014年起便一直在追逐Shazeer，当时Shazeer仍在谷歌。Altman的执着反映了一种战略认知：掌控下一个架构的公司将掌控AI的下一个十年。OpenAI目前在GPT-4上的成功建立在Transformer之上，但Altman深知这一基础是脆弱的。据报，他已向Shazeer提供了一份在OpenAI的空白支票式角色，以领导一个“下一代架构”团队。

Google DeepMind 正面临人才危机。除Shazeer外，该公司还失去了Ashish Vaswani（联合作者，现于Adept AI）、Niki Parmar（联合作者，现于Adept AI）和Jakob Uszkoreit（联合作者，现于Inceptive）等关键研究者。这场人才外流不仅关乎金钱——更关乎在谷歌规避风险的产品文化之外自由探索激进想法的空间。

| 公司 | 关键后Transformer研究 | 状态 | 重要离职人员 |
|---|---|---|---|
| Google DeepMind | Mamba（与CMU联合开发）、Pathways | 活跃但人才流失 | Shazeer、Vaswani、Parmar、Uszkoreit |
| OpenAI | GPT-4（Transformer+MoE）、据传的下一代模型 | 保密、积极招聘 | 无此级别人员 |
| Anthropic | Claude（基于Transformer）、宪法AI | 稳定，但无公开的后Transformer研究 | 无 |

时间归档

延伸阅读

常见问题

这次公司发布“Noam Shazeer Rejects $2.7B: The End of the Transformer Era Begins”主要讲了什么？

In a move that reverberates through the AI industry, Noam Shazeer — one of the eight co-authors of the 2017 paper that introduced the Transformer architecture — has left Google for…

从“Noam Shazeer next project post-Transformer”看，这家公司的这次发布为什么值得关注？

The Transformer architecture, introduced in 'Attention Is All You Need' (Vaswani et al., 2017), revolutionized sequence modeling by replacing recurrent neural networks with a self-attention mechanism. Its core innovation…

围绕“Sam Altman OpenAI talent acquisition strategy”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。