Noam Shazeer拒27亿美元挽留:Transformer时代终结的序幕

June 2026
Transformer architecture归档:June 2026
《Attention Is All You Need》联合作者Noam Shazeer毅然离开谷歌,即便公司开出27亿美元天价留任方案。他的出走标志着行业从规模化Transformer转向探索全新AI架构的决断性转折——这一转变,Sam Altman已预判十年。

一项震动AI行业的决定:Noam Shazeer——2017年提出Transformer架构的八位联合作者之一——已永久离开谷歌。据报,这家搜索巨头为其开出了价值27亿美元的留任方案,这一数字凸显了Shazeer作为当今大语言模型底层技术架构师的独特地位。然而,即便这笔令人咋舌的巨款也未能留住他。Shazeer的离开无关金钱,而是信念。他坚信,Transformer虽已改变世界,却并非神经网络设计的终极答案。外界普遍预期,他的下一个项目将瞄准后Transformer范式,可能涉及替代性注意力机制、状态空间模型或混合架构。

技术深度解析

Transformer架构,由《Attention Is All You Need》(Vaswani等人,2017)提出,通过自注意力机制取代循环神经网络,彻底革新了序列建模。其核心创新——缩放点积注意力——计算序列中所有token之间的两两交互,实现了并行化与长程依赖捕捉。然而,自注意力相对于序列长度n的二次复杂度O(n²),在模型扩展至数百万token时已成为关键瓶颈。

Shazeer本人的贡献远不止于原始论文。他是混合专家(MoE)层论文《Outrageously Large Neural Networks》(2017)的第一作者,该论文引入了稀疏门控MoE,以在不等比增加算力的前提下扩展模型容量。他还联合开发了用于分布式训练的Mesh-TensorFlow库,并为谷歌的Pathways系统做出了贡献。他的离开表明,他看到了Transformer-MoE范式的根本性局限。

多种后Transformer架构正在争夺主导地位:

- 状态空间模型(SSMs): 像Mamba(Albert Gu与Tri Dao,2023)这样的模型用选择性状态空间机制取代注意力,实现了序列长度的线性复杂度。Mamba在语言建模基准上表现出竞争力,同时在长序列推理中速度显著更快。其官方GitHub仓库(state-spaces/mamba)已获超过15,000颗星。
- RWKV: 结合了RNN的效率与Transformer的训练并行性。其“时间混合”与“通道混合”机制实现了线性扩展。BlinkDL/RWKV-LM仓库已获超过12,000颗星。
- 混合架构: 像谷歌自家的PaLI和OpenAI的GPT-4(据传使用了MoE)等模型,将注意力与其他机制融合。然而,它们本质上仍基于Transformer。
- 替代性注意力机制: 线性注意力(如Performer、Linformer)和FlashAttention(Tri Dao)减少了内存与计算,但保留了二次核心。

| 架构 | 复杂度(相对于序列长度) | 推理速度(长序列) | 推理基准(MMLU) | 训练稳定性 |
|---|---|---|---|---|
| Transformer(GPT-4) | O(n²) | 慢 | 86.4 | 高 |
| Mamba(2.8B) | O(n) | 快 | 70.2 | 中 |
| RWKV(14B) | O(n) | 非常快 | 72.5 | 中 |
| 混合架构(如H3) | O(n)至O(n²) | 中等 | 75.1 | 中高 |

数据要点: 尽管Mamba和RWKV等后Transformer架构提供了显著的效率提升,但在MMLU等复杂推理基准上仍落后于Transformer。这一差距正在迅速缩小——Mamba的2.8B模型得分为70.2,而GPT-4为86.4,但计算成本仅为后者的零头。下一个突破很可能来自一种既能匹配Transformer推理能力、又能保持线性复杂度的架构。

Shazeer在MoE和分布式系统方面的深厚专长表明,他的下一个项目可能将稀疏门控与一种新的核心机制相结合,或许是一种混合方案——对短程交互使用注意力,对长程上下文使用SSM。开源社区已在尝试此类混合方案;'zamba'仓库(Zyphra/ai)将Mamba与注意力层结合。

关键人物与案例研究

Noam Shazeer 不仅是一位研究者,更是一位传奇。在Transformer论文之后,他在谷歌领导了LaMDA(对话应用语言模型)的开发,该模型为早期对话式AI提供了动力。他于2021年离开谷歌,联合创立了聊天机器人平台Character.AI,该公司以10亿美元估值融资1.5亿美元。2023年,他作为人才重新引进计划的一部分重返谷歌。他的第二次离开是决定性的。

Sam Altman 自2014年起便一直在追逐Shazeer,当时Shazeer仍在谷歌。Altman的执着反映了一种战略认知:掌控下一个架构的公司将掌控AI的下一个十年。OpenAI目前在GPT-4上的成功建立在Transformer之上,但Altman深知这一基础是脆弱的。据报,他已向Shazeer提供了一份在OpenAI的空白支票式角色,以领导一个“下一代架构”团队。

Google DeepMind 正面临人才危机。除Shazeer外,该公司还失去了Ashish Vaswani(联合作者,现于Adept AI)、Niki Parmar(联合作者,现于Adept AI)和Jakob Uszkoreit(联合作者,现于Inceptive)等关键研究者。这场人才外流不仅关乎金钱——更关乎在谷歌规避风险的产品文化之外自由探索激进想法的空间。

| 公司 | 关键后Transformer研究 | 状态 | 重要离职人员 |
|---|---|---|---|
| Google DeepMind | Mamba(与CMU联合开发)、Pathways | 活跃但人才流失 | Shazeer、Vaswani、Parmar、Uszkoreit |
| OpenAI | GPT-4(Transformer+MoE)、据传的下一代模型 | 保密、积极招聘 | 无此级别人员 |
| Anthropic | Claude(基于Transformer)、宪法AI | 稳定,但无公开的后Transformer研究 | 无 |

相关专题

Transformer architecture41 篇相关文章

时间归档

June 20261757 篇已发布文章

延伸阅读

DeepSeek Hallucination Event: AI's Hidden Vulnerability and Industry CrossroadsA seemingly minor glitch—special characters causing DeepSeek to hallucinate—has exposed a deep-seated fragility in largeMomenta IPO:自动驾驶的“故事”讲完了,该算账了Momenta 通过港交所聆讯,但资本市场对自动驾驶的热情已今非昔比。核心挑战不再是算法有多强,而是能否盈利。这场 IPO,是对一个从“讲故事”转向“算利润”的行业的终极压力测试。世界模型:将超越LLM的物理AI操作系统一场悄然的范式转移正在AI领域发生:模拟物理与因果关系的世界模型,正取代语言模型成为物理智能的基础架构。AINews深入剖析为何顶尖研究者认为,这是通往具身AGI的唯一路径。30天工厂改造:清仓机器人如何重写工业自动化规则仅用30天,清仓机器人就在欧莱雅全球战略生产线上部署了一套轻量级视觉-语言-动作(VLA)具身智能系统,证明中国工业AI能够满足最严苛的国际制造标准。这一里程碑标志着轻量级VLA技术首次实现大规模商业突破,从实验室走向工厂车间。

常见问题

这次公司发布“Noam Shazeer Rejects $2.7B: The End of the Transformer Era Begins”主要讲了什么?

In a move that reverberates through the AI industry, Noam Shazeer — one of the eight co-authors of the 2017 paper that introduced the Transformer architecture — has left Google for…

从“Noam Shazeer next project post-Transformer”看,这家公司的这次发布为什么值得关注?

The Transformer architecture, introduced in 'Attention Is All You Need' (Vaswani et al., 2017), revolutionized sequence modeling by replacing recurrent neural networks with a self-attention mechanism. Its core innovation…

围绕“Sam Altman OpenAI talent acquisition strategy”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。