技术深度解析
Gemma 4 的架构可以理解为两种此前相互竞争的范式——Transformer 的注意力机制与循环神经网络的序列状态传播——之间一次精心编排的融合。其关键洞察在于:长序列中并非所有 Token 都需要全局注意力。Gemma 4 采用了一种稀疏注意力模式,每个 Token 仅关注一个 2048 Token 的局部窗口以及一小部分随机选择的远距离 Token。这将注意力复杂度从 O(n²) 降低到 O(n * k),其中 k 是一个常数(默认配置下约为 3000)。
对于稀疏注意力遗漏的长程依赖,Gemma 4 引入了一个门控循环单元(GRU)风格的组件,通过单次前向传播处理整个序列。与传统 RNN 不同,该组件使用学习到的门控机制来决定保留哪些来自先前 Token 的信息,并通过残差连接与注意力层并行运行。循环状态被压缩为一个固定大小的 4096 维向量,这意味着存储整个序列上下文的内存成本与序列长度无关,始终保持恒定。
训练过程同样具有创新性。Google 在标准的下一个 Token 预测任务之外,还引入了一种上下文重建目标:模型必须仅利用循环状态来重建长文档中被掩码的片段。这迫使循环组件学习有意义的长期表征。该模型使用 Google 的 TPU v5p 集群在 3.5 万亿 Token 上完成训练,但根据内部基准测试,其总计算预算比训练同等质量的可比纯 Transformer 减少了约 40%。
| 模型 | 架构 | 上下文窗口 | 内存(FP16,70B 参数) | 推理速度(tokens/s,A100) | MMLU 得分 |
|---|---|---|---|---|---|
| Gemma 4 70B | 混合稀疏注意力 + RNN | 1,048,576 | 140 GB | 45 | 87.2 |
| Llama 3.1 70B | 密集 Transformer | 131,072 | 280 GB | 22 | 86.9 |
| Mixtral 8x22B | 混合专家 Transformer | 65,536 | 260 GB(活跃参数) | 30 | 85.8 |
| Gemma 4 7B | 混合稀疏注意力 + RNN | 1,048,576 | 14 GB | 320 | 74.1 |
数据要点: Gemma 4 在实现与 Llama 3.1 相当或更优基准得分的同时,内存占用减半,推理速度翻倍。7B 版本仅用 14GB 内存即可处理百万 Token 上下文的能力前所未有,为笔记本电脑上的实时文档分析等全新用例铺平了道路。
一个值得注意的开源实现——RWKV 仓库(目前在 GitHub 上拥有 25k 星标)——启发了 Gemma 4 的部分设计,它率先采用了线性注意力 + RNN 混合方法。Google 的工程师已在内部沟通中承认 RWKV 的影响,不过 Gemma 4 特定的门控机制和训练目标是独特的。FlashAttention 库(同样源自 Google,12k 星标)被用于优化稀疏注意力内核,在 TPU 和 GPU 上实现了接近理论峰值的 FLOPS 利用率。
关键参与者与案例研究
Google DeepMind 是主要开发者,核心架构归功于由 Denny Zhou 和 Jeff Dean 领导的团队。Zhou 此前在混合专家模型和高效注意力机制方面的工作直接影响了 Gemma 4 的设计。该团队明确致力于解决困扰所有主要 LLM 部署的“长上下文墙”问题——从 ChatGPT 的 Token 限制到 Claude 的上下文窗口退化。
Meta 的 Llama 团队,由 Thomas Scialom 领导,是主要竞争对手。Llama 3.1 的密集 Transformer 架构实现更简单,并受益于庞大的社区工具生态,但其二次方扩展性限制了实际上下文长度。Meta 尚未宣布任何混合架构计划,尽管内部研究论文表明他们正在探索类似想法。
Mistral AI 则选择了不同的路径,采用混合专家(MoE)方法,减少了活跃参数数量,但仍受二次方注意力问题的困扰。Mistral 的 CEO Arthur Mensch 曾公开表示“注意力并非大多数用例的瓶颈”,而 Gemma 4 的结果直接挑战了这一立场。
| 公司 | 模型 | 架构 | 上下文窗口 | 开源许可 | 边缘部署 |
|---|---|---|---|---|---|
| Google DeepMind | Gemma 4 | 混合稀疏 + RNN | 1M Token | 是(宽松许可) | 原生(Qualcomm、MediaTek) |
| Meta | Llama 3.1 | 密集 Transformer | 131K Token | 是(自定义许可) | 通过量化(有限) |
| Mistral AI | Mixtral 8x22B | MoE Transformer | 65K Token | 是(Apache 2.0) | 通过量化(有限) |
| Microsoft | Phi-3 | Transformer + LongRoPE | 128K Token | 是(MIT 许可) | 通过 ONNX Runtime |
数据要点: Google 的宽松许可和原生边缘优化赋予了 Gemma 4 独特优势。Meta 的自定义许可限制了某些应用的商业使用,而 Mistral 的 Apache 2.0 许可则更为开放。