Google Gemma 4 混合架构突破 Transformer 极限,边缘 AI 迎来百万 Token 时代

Hacker News April 2026
来源:Hacker Newsedge AI归档:April 2026
Google 推出 Gemma 4 系列开源大模型,其核心创新在于一种融合稀疏注意力与循环神经网络组件的混合架构,彻底打破了 Transformer 的二次复杂度瓶颈。这一设计不仅实现了百万 Token 的超长上下文窗口,更让模型能在智能手机上高效运行,标志着 AI 从算力密集型数据中心向边缘原生计算的战略转向。

Google 正式发布 Gemma 4,一个从根本上颠覆自 2017 年以来主导 AI 领域的纯 Transformer 架构的开源大语言模型家族。其核心突破是一种混合设计,将稀疏注意力机制与循环神经网络(RNN)模块交错结合。稀疏注意力高效处理局部、可并行化的计算,而循环组件则通过固定大小的状态向量捕获长达一百万 Token 序列中的长程依赖关系,完全避免了标准自注意力机制带来的二次方内存与计算成本。这一架构创新直接解决了 Transformer 在长上下文任务中长期存在的效率问题——推理成本随序列长度平方增长。

Gemma 4 提供多种尺寸版本,其中最大的 70B 参数模型在 MMLU 基准测试中取得 87.2 分,与 Meta 的 Llama 3.1 70B(86.9 分)相当,但内存占用仅为其一半(140GB vs 280GB),推理速度翻倍(45 tokens/s vs 22 tokens/s)。更令人瞩目的是,7B 参数版本仅需 14GB 内存即可处理百万 Token 上下文,这在业界前所未有,直接解锁了笔记本电脑上实时文档分析等全新应用场景。Google 采用宽松许可证发布 Gemma 4,并已针对 Qualcomm 和 MediaTek 等移动芯片进行原生优化,使其在边缘部署方面具备独特优势。

技术深度解析

Gemma 4 的架构可以理解为两种此前相互竞争的范式——Transformer 的注意力机制与循环神经网络的序列状态传播——之间一次精心编排的融合。其关键洞察在于:长序列中并非所有 Token 都需要全局注意力。Gemma 4 采用了一种稀疏注意力模式,每个 Token 仅关注一个 2048 Token 的局部窗口以及一小部分随机选择的远距离 Token。这将注意力复杂度从 O(n²) 降低到 O(n * k),其中 k 是一个常数(默认配置下约为 3000)。

对于稀疏注意力遗漏的长程依赖,Gemma 4 引入了一个门控循环单元(GRU)风格的组件,通过单次前向传播处理整个序列。与传统 RNN 不同,该组件使用学习到的门控机制来决定保留哪些来自先前 Token 的信息,并通过残差连接与注意力层并行运行。循环状态被压缩为一个固定大小的 4096 维向量,这意味着存储整个序列上下文的内存成本与序列长度无关,始终保持恒定。

训练过程同样具有创新性。Google 在标准的下一个 Token 预测任务之外,还引入了一种上下文重建目标:模型必须仅利用循环状态来重建长文档中被掩码的片段。这迫使循环组件学习有意义的长期表征。该模型使用 Google 的 TPU v5p 集群在 3.5 万亿 Token 上完成训练,但根据内部基准测试,其总计算预算比训练同等质量的可比纯 Transformer 减少了约 40%。

| 模型 | 架构 | 上下文窗口 | 内存(FP16,70B 参数) | 推理速度(tokens/s,A100) | MMLU 得分 |
|---|---|---|---|---|---|
| Gemma 4 70B | 混合稀疏注意力 + RNN | 1,048,576 | 140 GB | 45 | 87.2 |
| Llama 3.1 70B | 密集 Transformer | 131,072 | 280 GB | 22 | 86.9 |
| Mixtral 8x22B | 混合专家 Transformer | 65,536 | 260 GB(活跃参数) | 30 | 85.8 |
| Gemma 4 7B | 混合稀疏注意力 + RNN | 1,048,576 | 14 GB | 320 | 74.1 |

数据要点: Gemma 4 在实现与 Llama 3.1 相当或更优基准得分的同时,内存占用减半,推理速度翻倍。7B 版本仅用 14GB 内存即可处理百万 Token 上下文的能力前所未有,为笔记本电脑上的实时文档分析等全新用例铺平了道路。

一个值得注意的开源实现——RWKV 仓库(目前在 GitHub 上拥有 25k 星标)——启发了 Gemma 4 的部分设计,它率先采用了线性注意力 + RNN 混合方法。Google 的工程师已在内部沟通中承认 RWKV 的影响,不过 Gemma 4 特定的门控机制和训练目标是独特的。FlashAttention 库(同样源自 Google,12k 星标)被用于优化稀疏注意力内核,在 TPU 和 GPU 上实现了接近理论峰值的 FLOPS 利用率。

关键参与者与案例研究

Google DeepMind 是主要开发者,核心架构归功于由 Denny Zhou 和 Jeff Dean 领导的团队。Zhou 此前在混合专家模型和高效注意力机制方面的工作直接影响了 Gemma 4 的设计。该团队明确致力于解决困扰所有主要 LLM 部署的“长上下文墙”问题——从 ChatGPT 的 Token 限制到 Claude 的上下文窗口退化。

Meta 的 Llama 团队,由 Thomas Scialom 领导,是主要竞争对手。Llama 3.1 的密集 Transformer 架构实现更简单,并受益于庞大的社区工具生态,但其二次方扩展性限制了实际上下文长度。Meta 尚未宣布任何混合架构计划,尽管内部研究论文表明他们正在探索类似想法。

Mistral AI 则选择了不同的路径,采用混合专家(MoE)方法,减少了活跃参数数量,但仍受二次方注意力问题的困扰。Mistral 的 CEO Arthur Mensch 曾公开表示“注意力并非大多数用例的瓶颈”,而 Gemma 4 的结果直接挑战了这一立场。

| 公司 | 模型 | 架构 | 上下文窗口 | 开源许可 | 边缘部署 |
|---|---|---|---|---|---|
| Google DeepMind | Gemma 4 | 混合稀疏 + RNN | 1M Token | 是(宽松许可) | 原生(Qualcomm、MediaTek) |
| Meta | Llama 3.1 | 密集 Transformer | 131K Token | 是(自定义许可) | 通过量化(有限) |
| Mistral AI | Mixtral 8x22B | MoE Transformer | 65K Token | 是(Apache 2.0) | 通过量化(有限) |
| Microsoft | Phi-3 | Transformer + LongRoPE | 128K Token | 是(MIT 许可) | 通过 ONNX Runtime |

数据要点: Google 的宽松许可和原生边缘优化赋予了 Gemma 4 独特优势。Meta 的自定义许可限制了某些应用的商业使用,而 Mistral 的 Apache 2.0 许可则更为开放。

更多来自 Hacker News

决策树与扩散模型:一场重塑AI基础架构的数学统一AINews独家披露了一项正在悄然重塑人工智能理论根基的重大突破:决策树与扩散模型之间的数学等价性。表面上看,决策树是离散的、基于规则的、高度可解释的模型,是处理表格数据的经典机器学习主力;而扩散模型则是连续的、迭代去噪的引擎,驱动着从DAAI代理的隐性税:每项新功能都在破坏缓存机制AI代理的快速发展正撞上一个被忽视的工程瓶颈:缓存失效。当代理维护持久记忆、调用外部API、处理流式数据并实时更新内部状态时,每个看似独立的功能——记忆检索、工具执行、上下文窗口管理——都成为潜在的“失效面”,缓存数据可能因此变得陈旧或矛盾从认知到预见:预测性世界模型如何解锁因果AI研究人员成功将轻量级预测性世界模型作为模块化插件嵌入现有大语言模型架构,使助手在生成响应前能运行多个未来场景模拟。与传统LLM仅基于训练数据中的统计相关性预测下一个token不同,新系统主动建模行动与结果之间的因果链。世界模型充当内部模拟器查看来源专题页Hacker News 已收录 4248 篇文章

相关专题

edge AI104 篇相关文章

时间归档

April 20263042 篇已发布文章

延伸阅读

稀疏注意力革命:让Transformer更轻、更快、更智能,边缘AI迎来新纪元动态稀疏注意力机制的重大突破正在大幅削减Transformer模型的计算成本,使大语言模型能够在边缘设备上高效运行。这项创新通过降低延迟和内存占用,同时不牺牲性能,有望推动AI的民主化,引领行业从“不计成本追求规模”转向“效率优先”的新范式本地语义索引:AI代理抛弃云端,隐私与速度兼得AI代理正挣脱云端的束缚。以Nexus项目为代表的新一波开发浪潮,正在构建完全本地的语义索引引擎,让代理无需将数据发送至外部服务器,即可搜索和理解个人数据。这是对代理与信息交互方式的根本性重构。85MB内存奇迹:图数据库如何让AI代理摆脱云端依赖一位开发者将本地AI代理框架LocalClaw的传统JSONL平面存储替换为图数据库,将内存占用从数GB骤降至仅85MB,同时大幅提升检索精度。从向量相似度匹配到结构化关系记忆的转变,标志着在无需云端支持的个人硬件上运行AI代理的关键突破。iPhone ANE 碾压 MLX 与 LiteRT:持续 LLM 推理中的热设计制胜最新基准测试揭示了设备端 AI 的关键差距:苹果 iPhone 的 Neural Engine(ANE)在持续 LLM 推理中保持稳定的 token 生成速率,而 MLX 和 LiteRT 框架因热降频性能大幅衰减。这凸显了苹果的垂直整合在

常见问题

这次模型发布“Google Gemma 4 Hybrid Architecture Breaks Transformer Limits for Edge AI”的核心内容是什么?

Google has released Gemma 4, a family of open-source large language models that fundamentally departs from the pure Transformer architecture that has dominated AI since 2017. The c…

从“Gemma 4 vs Llama 3.1 benchmark comparison”看,这个模型发布为什么重要?

Gemma 4's architecture is best understood as a carefully orchestrated hybrid of two previously competing paradigms: the Transformer's attention mechanism and the recurrent neural network's sequential state propagation. T…

围绕“How to run Gemma 4 on Android phone”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。