技术深度解析
Transformer架构,由《Attention Is All You Need》(Vaswani等人,2017)提出,通过自注意力机制取代循环神经网络,彻底革新了序列建模。其核心创新——缩放点积注意力——计算序列中所有token之间的两两交互,实现了并行化与长程依赖捕捉。然而,自注意力相对于序列长度n的二次复杂度O(n²),在模型扩展至数百万token时已成为关键瓶颈。
Shazeer本人的贡献远不止于原始论文。他是混合专家(MoE)层论文《Outrageously Large Neural Networks》(2017)的第一作者,该论文引入了稀疏门控MoE,以在不等比增加算力的前提下扩展模型容量。他还联合开发了用于分布式训练的Mesh-TensorFlow库,并为谷歌的Pathways系统做出了贡献。他的离开表明,他看到了Transformer-MoE范式的根本性局限。
多种后Transformer架构正在争夺主导地位:
- 状态空间模型(SSMs): 像Mamba(Albert Gu与Tri Dao,2023)这样的模型用选择性状态空间机制取代注意力,实现了序列长度的线性复杂度。Mamba在语言建模基准上表现出竞争力,同时在长序列推理中速度显著更快。其官方GitHub仓库(state-spaces/mamba)已获超过15,000颗星。
- RWKV: 结合了RNN的效率与Transformer的训练并行性。其“时间混合”与“通道混合”机制实现了线性扩展。BlinkDL/RWKV-LM仓库已获超过12,000颗星。
- 混合架构: 像谷歌自家的PaLI和OpenAI的GPT-4(据传使用了MoE)等模型,将注意力与其他机制融合。然而,它们本质上仍基于Transformer。
- 替代性注意力机制: 线性注意力(如Performer、Linformer)和FlashAttention(Tri Dao)减少了内存与计算,但保留了二次核心。
| 架构 | 复杂度(相对于序列长度) | 推理速度(长序列) | 推理基准(MMLU) | 训练稳定性 |
|---|---|---|---|---|
| Transformer(GPT-4) | O(n²) | 慢 | 86.4 | 高 |
| Mamba(2.8B) | O(n) | 快 | 70.2 | 中 |
| RWKV(14B) | O(n) | 非常快 | 72.5 | 中 |
| 混合架构(如H3) | O(n)至O(n²) | 中等 | 75.1 | 中高 |
数据要点: 尽管Mamba和RWKV等后Transformer架构提供了显著的效率提升,但在MMLU等复杂推理基准上仍落后于Transformer。这一差距正在迅速缩小——Mamba的2.8B模型得分为70.2,而GPT-4为86.4,但计算成本仅为后者的零头。下一个突破很可能来自一种既能匹配Transformer推理能力、又能保持线性复杂度的架构。
Shazeer在MoE和分布式系统方面的深厚专长表明,他的下一个项目可能将稀疏门控与一种新的核心机制相结合,或许是一种混合方案——对短程交互使用注意力,对长程上下文使用SSM。开源社区已在尝试此类混合方案;'zamba'仓库(Zyphra/ai)将Mamba与注意力层结合。
关键人物与案例研究
Noam Shazeer 不仅是一位研究者,更是一位传奇。在Transformer论文之后,他在谷歌领导了LaMDA(对话应用语言模型)的开发,该模型为早期对话式AI提供了动力。他于2021年离开谷歌,联合创立了聊天机器人平台Character.AI,该公司以10亿美元估值融资1.5亿美元。2023年,他作为人才重新引进计划的一部分重返谷歌。他的第二次离开是决定性的。
Sam Altman 自2014年起便一直在追逐Shazeer,当时Shazeer仍在谷歌。Altman的执着反映了一种战略认知:掌控下一个架构的公司将掌控AI的下一个十年。OpenAI目前在GPT-4上的成功建立在Transformer之上,但Altman深知这一基础是脆弱的。据报,他已向Shazeer提供了一份在OpenAI的空白支票式角色,以领导一个“下一代架构”团队。
Google DeepMind 正面临人才危机。除Shazeer外,该公司还失去了Ashish Vaswani(联合作者,现于Adept AI)、Niki Parmar(联合作者,现于Adept AI)和Jakob Uszkoreit(联合作者,现于Inceptive)等关键研究者。这场人才外流不仅关乎金钱——更关乎在谷歌规避风险的产品文化之外自由探索激进想法的空间。
| 公司 | 关键后Transformer研究 | 状态 | 重要离职人员 |
|---|---|---|---|
| Google DeepMind | Mamba(与CMU联合开发)、Pathways | 活跃但人才流失 | Shazeer、Vaswani、Parmar、Uszkoreit |
| OpenAI | GPT-4(Transformer+MoE)、据传的下一代模型 | 保密、积极招聘 | 无此级别人员 |
| Anthropic | Claude(基于Transformer)、宪法AI | 稳定,但无公开的后Transformer研究 | 无 |