Transformer 共同发明者 Shazeer 加盟 OpenAI:AGI 竞赛中的核级人才转移

Hacker News June 2026
来源:Hacker NewsOpenAITransformer architectureMixture of Experts归档:June 2026
Noam Shazeer,Transformer 架构的奠基人之一、Google Gemini 项目的联合负责人,已正式加入 OpenAI。这一举动重塑了 AI 格局,为 OpenAI 带来了一位顶级架构师,同时重创了 Google 的核心研究实力。

在整个人工智能行业引发震动的消息中,Noam Shazeer——Transformer 架构的共同发明者、Google Gemini 项目的关键推动者——已正式加入 OpenAI。这并非一次普通的高管离职,而是一次核级的人才转移,从根本上改变了通用人工智能(AGI)竞赛中的力量平衡。Shazeer 不仅仅是一位备受瞩目的研究员;他是少数几位真正撰写了现代 AI 操作手册的人之一。作为 2017 年开创性论文《Attention Is All You Need》的核心作者,他共同创造了 Transformer——这一神经网络架构支撑着从 GPT-4 到 Gemini 再到 Claude 的所有主要大语言模型(LLM)。在 Google,他是 Mixture-of-Experts(MoE)架构的早期倡导者,该技术如今被视为下一代 AI 模型的关键。他的离开对 Google 而言是一个重大打击,而对 OpenAI 来说,则是一次战略性的增强,可能加速 AGI 的到来。

技术深度解析

Noam Shazeer 加入 OpenAI 是一个最高级别的技术事件。要理解其重要性,必须认识到他在 Transformer 之外的具体贡献。虽然 Transformer 是他最著名的作品,但他近期最具影响力的遗产是在 Mixture-of-Experts(MoE)架构方面的开创性工作。Shazeer 是 2017 年论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》的主要作者,该论文引入了一种实用方法,通过使用门控网络为每个输入 token 仅激活一部分专家子网络,从而将神经网络扩展到数万亿参数。这是 Google 的 GLaM(通用语言模型)以及更近期的 Gemini 架构的基础技术。

MoE 并非简单的附加组件;它是对模型效率的根本性重新思考。像 GPT-4(估计约 1.8 万亿参数)这样的标准密集模型,每次前向传播都会使用其所有参数,导致巨大的计算成本。相比之下,一个 MoE 模型可能拥有 1 万亿总参数,但对于任何给定 token 仅激活约 1000 亿参数。这使得模型容量巨大,而无需按比例增加每次推理的 FLOPs。Shazeer 的具体创新是 noisy top-k 门控机制,该机制引入受控的随机性,以确保所有专家都得到训练,并防止只有少数专家占主导地位的崩溃现象。

在 OpenAI,Shazeer 的 MoE 专业知识将立即得到应用。有传言称 OpenAI 正在开发下一代模型,通常被称为“GPT-5”或“Orion”,该模型将超越 GPT-4 的密集架构。Shazeer 可以直接设计一个稀疏 MoE 变体,该变体可以在推理成本仅为 GPT-4 一小部分的情况下达到 GPT-4 级别的性能,或者将性能推至远超当前基准的水平。他在高效训练方面的工作——包括用于条件计算的混合专家等技术——直接解决了扩展定律的核心挑战:在计算预算有限的情况下,如何持续提升模型性能。

此外,Shazeer 的研究还扩展到多模态架构。在 Google,他致力于扩展视觉 Transformer 并将其与语言模型连接。这对于 OpenAI 的 Sora 至关重要,因为 Sora 需要理解视频、音频和文本的联合分布。Shazeer 可以帮助设计一个统一的架构,将所有模态视为由单个大规模 MoE Transformer 处理的 token,从而可能解决 Sora 当前在潜在空间扩散方法中的低效问题。

| 模型 | 架构类型 | 估计总参数 | 每个 Token 激活参数 | 推理成本(相对) | 关键创新 |
|---|---|---|---|---|---|
| GPT-4(估计) | 密集 Transformer | ~1.8T | ~1.8T | 100%(基准) | 规模、RLHF |
| Gemini Ultra(估计) | MoE Transformer | ~1.5T | ~200B(估计) | ~15-20% | 稀疏激活、多模态 |
| Mixtral 8x7B(开源) | 稀疏 MoE(Top-2) | 47B | 12.9B | ~7% 的密集 47B | 展示 MoE 效率 |
| 采用 Shazeer MoE 的 GPT-4(假设) | 高级稀疏 MoE | ~2T | ~150B(估计) | ~10% | 动态专家路由、改进的门控 |

数据要点: 该表格展示了 Shazeer 带来的核心价值。一个假设的采用其高级 MoE 技术的 GPT-4 级别模型,可以在仅消耗 10% 推理计算资源的情况下实现相似或更好的性能。这不是渐进式改进——这是 10 倍的效率提升,直接转化为更低的成本、更高的吞吐量以及大规模部署模型的能力。

对于开发者和研究人员来说,Shazeer 的开源贡献值得研究。GitHub 仓库 `tensorflow/mesh`(现已归档,但具有历史意义)包含他在模型并行方面的工作。更相关的是 `google-research/t5x` 仓库,其中包含 MoE 层的实现。开源社区还推出了 `mistralai/Mixtral-8x7B`,这是 Shazeer 开创的稀疏 MoE 概念的直接实现,已获得超过 15,000 个 GitHub 星标,展示了该架构的实际可行性。Shazeer 的加入可能会加速 OpenAI 自身开源 MoE 框架的开发,从而可能挑战 Meta 的 Llama 和 Mistral 当前的主导地位。

关键参与者与案例研究

这一举动重新洗牌了 AI 军备竞赛中的关键参与者。主要角色包括 OpenAI、Google DeepMind 以及更广泛的 AI 实验室生态系统。

OpenAI: 直接受益者。OpenAI 现在拥有了世界上在定义下一代模型架构方面最顶尖的专家。Sam Altman 和 Ilya Sutskever(在他离开之前)早已明白,人才是最终的护城河。Shazeer 的加入是对 Google 的 Gemini 和 Anthropic 的 Claude 挑战的直接回应。OpenAI 的战略很明确:在架构创新上加倍投入,而不仅仅是追求规模。Shazeer 很可能会

更多来自 Hacker News

LLM将内核调优从分钟级压缩至秒级:实时AI优化的黎明传统的内核自动调优方法一直依赖蛮力搜索:穷举编译器标志、循环变换和内存布局的组合空间,以找到最优配置。虽然有效,但这一过程极其缓慢,复杂内核往往需要数分钟甚至数小时。如今,一种新颖方法借助大型语言模型彻底改变了这一格局。LLM不再将搜索空间AI Commander:解锁云端AI代理的远程桌面时刻数月以来,AI代理生态系统一直专注于提升大语言模型能力和构建更复杂的代理框架。然而,一个关键的“最后一公里”问题始终未解:如何让这些智能代理安全、即时地触及用户的真实物理设备。防火墙、端口转发、SSH密钥管理以及复杂的网络拓扑,迫使大多数A浏览器端AI助手终结服务器成本:云依赖聊天机器人的末日来临AINews发现了一场AI部署领域的静默革命:一个能将任何静态FAQ文档转化为完全功能、交互式AI助手的平台,且该助手完全在用户浏览器内运行。其核心创新在于客户端推理——利用WebAssembly和优化的小型语言模型处理查询,无需任何服务器查看来源专题页Hacker News 已收录 4901 篇文章

相关专题

OpenAI156 篇相关文章Transformer architecture42 篇相关文章Mixture of Experts29 篇相关文章

时间归档

June 20261801 篇已发布文章

延伸阅读

大转向:LLM如何告别参数竞赛,拥抱效率革命大语言模型“越大越好”的时代已经终结。过去六个月,行业经历了一场静默革命——从以参数规模为核心指标,转向聚焦效率、可靠性与真实世界价值。本文深度解析这场转型的来龙去脉。DeepSeek v4自适应路由:AI“越大越好”时代的终结DeepSeek悄然发布了其大型语言模型的v4版本,我们的分析显示,这并非一次简单的迭代,而是一场根本性的架构变革。通过引入自适应路由混合专家系统,根据查询复杂度动态分配算力,DeepSeek v4在推理成本上比同类模型低40%,同时性能媲OpenAI 挖角 Character.AI 创始人:谷歌失去 AI 灵魂OpenAI 成功招募 Character.AI 创始人、前谷歌研究员——LaMDA 项目的开创者。这不仅仅是一次高调挖角,更代表着 AI 核心智力资本的战略重组,对谷歌的对话式 AI 雄心造成重创。ChatGPT's Spontaneous Snuff Images Expose AI Safety's Fatal FlawOpenAI's ChatGPT has been caught generating unsolicited, extreme violent and sexual 'snuff' images. This is not a jailbr

常见问题

这次公司发布“Transformer Co-Inventor Shazeer Joins OpenAI: A Nuclear Talent Shift in the AGI Race”主要讲了什么?

In a move that reverberates across the entire artificial intelligence industry, Noam Shazeer—the co-inventor of the Transformer architecture and a driving force behind Google's Gem…

从“What is Noam Shazeer's role at OpenAI”看,这家公司的这次发布为什么值得关注?

Noam Shazeer's move to OpenAI is a technical event of the highest order. To understand its magnitude, one must appreciate his specific contributions beyond the Transformer. While the Transformer is his most famous work…

围绕“How does MoE architecture improve AI models”,这次发布可能带来哪些后续影响?

后续通常要继续观察用户增长、产品渗透率、生态合作、竞品应对以及资本市场和开发者社区的反馈。