Transformer 共同发明者 Shazeer 加盟 OpenAI：AGI 竞赛中的核级人才转移

2026年6月19日 04:01 AINews Hacker News June 2026

来源：Hacker News OpenAI Transformer architecture Mixture of Experts 归档：June 2026

Noam Shazeer，Transformer 架构的奠基人之一、Google Gemini 项目的联合负责人，已正式加入 OpenAI。这一举动重塑了 AI 格局，为 OpenAI 带来了一位顶级架构师，同时重创了 Google 的核心研究实力。

在整个人工智能行业引发震动的消息中，Noam Shazeer——Transformer 架构的共同发明者、Google Gemini 项目的关键推动者——已正式加入 OpenAI。这并非一次普通的高管离职，而是一次核级的人才转移，从根本上改变了通用人工智能（AGI）竞赛中的力量平衡。Shazeer 不仅仅是一位备受瞩目的研究员；他是少数几位真正撰写了现代 AI 操作手册的人之一。作为 2017 年开创性论文《Attention Is All You Need》的核心作者，他共同创造了 Transformer——这一神经网络架构支撑着从 GPT-4 到 Gemini 再到 Claude 的所有主要大语言模型（LLM）。在 Google，他是 Mixture-of-Experts（MoE）架构的早期倡导者，该技术如今被视为下一代 AI 模型的关键。他的离开对 Google 而言是一个重大打击，而对 OpenAI 来说，则是一次战略性的增强，可能加速 AGI 的到来。

技术深度解析

Noam Shazeer 加入 OpenAI 是一个最高级别的技术事件。要理解其重要性，必须认识到他在 Transformer 之外的具体贡献。虽然 Transformer 是他最著名的作品，但他近期最具影响力的遗产是在 Mixture-of-Experts（MoE）架构方面的开创性工作。Shazeer 是 2017 年论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》的主要作者，该论文引入了一种实用方法，通过使用门控网络为每个输入 token 仅激活一部分专家子网络，从而将神经网络扩展到数万亿参数。这是 Google 的 GLaM（通用语言模型）以及更近期的 Gemini 架构的基础技术。

MoE 并非简单的附加组件；它是对模型效率的根本性重新思考。像 GPT-4（估计约 1.8 万亿参数）这样的标准密集模型，每次前向传播都会使用其所有参数，导致巨大的计算成本。相比之下，一个 MoE 模型可能拥有 1 万亿总参数，但对于任何给定 token 仅激活约 1000 亿参数。这使得模型容量巨大，而无需按比例增加每次推理的 FLOPs。Shazeer 的具体创新是 noisy top-k 门控机制，该机制引入受控的随机性，以确保所有专家都得到训练，并防止只有少数专家占主导地位的崩溃现象。

在 OpenAI，Shazeer 的 MoE 专业知识将立即得到应用。有传言称 OpenAI 正在开发下一代模型，通常被称为“GPT-5”或“Orion”，该模型将超越 GPT-4 的密集架构。Shazeer 可以直接设计一个稀疏 MoE 变体，该变体可以在推理成本仅为 GPT-4 一小部分的情况下达到 GPT-4 级别的性能，或者将性能推至远超当前基准的水平。他在高效训练方面的工作——包括用于条件计算的混合专家等技术——直接解决了扩展定律的核心挑战：在计算预算有限的情况下，如何持续提升模型性能。

此外，Shazeer 的研究还扩展到多模态架构。在 Google，他致力于扩展视觉 Transformer 并将其与语言模型连接。这对于 OpenAI 的 Sora 至关重要，因为 Sora 需要理解视频、音频和文本的联合分布。Shazeer 可以帮助设计一个统一的架构，将所有模态视为由单个大规模 MoE Transformer 处理的 token，从而可能解决 Sora 当前在潜在空间扩散方法中的低效问题。

| 模型 | 架构类型 | 估计总参数 | 每个 Token 激活参数 | 推理成本（相对） | 关键创新 |
|---|---|---|---|---|---|
| GPT-4（估计） | 密集 Transformer | ~1.8T | ~1.8T | 100%（基准） | 规模、RLHF |
| Gemini Ultra（估计） | MoE Transformer | ~1.5T | ~200B（估计） | ~15-20% | 稀疏激活、多模态 |
| Mixtral 8x7B（开源） | 稀疏 MoE（Top-2） | 47B | 12.9B | ~7% 的密集 47B | 展示 MoE 效率 |
| 采用 Shazeer MoE 的 GPT-4（假设） | 高级稀疏 MoE | ~2T | ~150B（估计） | ~10% | 动态专家路由、改进的门控 |

数据要点： 该表格展示了 Shazeer 带来的核心价值。一个假设的采用其高级 MoE 技术的 GPT-4 级别模型，可以在仅消耗 10% 推理计算资源的情况下实现相似或更好的性能。这不是渐进式改进——这是 10 倍的效率提升，直接转化为更低的成本、更高的吞吐量以及大规模部署模型的能力。

对于开发者和研究人员来说，Shazeer 的开源贡献值得研究。GitHub 仓库 `tensorflow/mesh`（现已归档，但具有历史意义）包含他在模型并行方面的工作。更相关的是 `google-research/t5x` 仓库，其中包含 MoE 层的实现。开源社区还推出了 `mistralai/Mixtral-8x7B`，这是 Shazeer 开创的稀疏 MoE 概念的直接实现，已获得超过 15,000 个 GitHub 星标，展示了该架构的实际可行性。Shazeer 的加入可能会加速 OpenAI 自身开源 MoE 框架的开发，从而可能挑战 Meta 的 Llama 和 Mistral 当前的主导地位。

关键参与者与案例研究

这一举动重新洗牌了 AI 军备竞赛中的关键参与者。主要角色包括 OpenAI、Google DeepMind 以及更广泛的 AI 实验室生态系统。

OpenAI： 直接受益者。OpenAI 现在拥有了世界上在定义下一代模型架构方面最顶尖的专家。Sam Altman 和 Ilya Sutskever（在他离开之前）早已明白，人才是最终的护城河。Shazeer 的加入是对 Google 的 Gemini 和 Anthropic 的 Claude 挑战的直接回应。OpenAI 的战略很明确：在架构创新上加倍投入，而不仅仅是追求规模。Shazeer 很可能会

时间归档

常见问题

这次公司发布“Transformer Co-Inventor Shazeer Joins OpenAI: A Nuclear Talent Shift in the AGI Race”主要讲了什么？

In a move that reverberates across the entire artificial intelligence industry, Noam Shazeer—the co-inventor of the Transformer architecture and a driving force behind Google's Gem…

从“What is Noam Shazeer's role at OpenAI”看，这家公司的这次发布为什么值得关注？

Noam Shazeer's move to OpenAI is a technical event of the highest order. To understand its magnitude, one must appreciate his specific contributions beyond the Transformer. While the Transformer is his most famous work…

围绕“How does MoE architecture improve AI models”，这次发布可能带来哪些后续影响？

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。

Transformer 共同发明者 Shazeer 加盟 OpenAI：AGI 竞赛中的核级人才转移

技术深度解析

关键参与者与案例研究

更多来自 Hacker News

相关专题

时间归档

延伸阅读

常见问题