Google DeepMind Gemma：开源权重大模型重塑AI可及性

2026年4月28日 04:07 AINews GitHub April 2026

⭐ 5056📈 +512

Google DeepMind正式发布Gemma，一个基于Gemini同源研究打造的开源权重大语言模型家族。提供20亿和70亿参数两个版本，Gemma旨在为开发者、研究人员和小型团队降低前沿AI门槛，同时深度整合Google生态系统。

2024年2月21日，Google DeepMind推出Gemma，一个开源权重的大语言模型库，标志着这家科技巨头的重大战略转向。与专有的Gemini模型不同，Gemma采用宽松许可证免费提供，包含预训练和指令微调版本，参数规模分别为20亿和70亿。这些模型基于与Gemini相同的基础研究构建——包括先进的注意力机制、多查询注意力和旋转位置编码——但针对资源受限硬件进行了效率优化和部署适配。Gemma支持PyTorch、JAX和Keras 3.0，覆盖主流深度学习框架。一个关键差异化优势是Google严格的安全过滤管线，在训练和推理阶段均应用内容安全分类器。

技术深度解析

Gemma的架构是Gemini家族的蒸馏版本，但在效率上做了精心设计。20亿和70亿参数模型均采用仅解码器Transformer，使用多查询注意力（MQA）而非更常见的多头注意力。MQA在所有查询头之间共享键和值头，降低内存带宽并加速推理——尤其在NVIDIA RTX 4090等消费级GPU上。模型采用旋转位置编码（RoPE）和GeGLU激活函数，这是现代大语言模型的标准配置。70亿模型拥有72亿参数、28层、16个注意力头、隐藏维度3072；20亿模型拥有25亿参数、18层、8个注意力头、隐藏维度2048。两者均使用256,000个token的词汇表，规模显著较大，能够高效处理多语言和代码密集型任务。

训练数据是关键差异化因素。70亿模型在6万亿token上训练，20亿模型在2万亿token上训练，数据来源包括网页文档、代码和数学内容，以英语为主。Google采用从更大Gemini模型进行知识蒸馏的技术来提升质量——这一过程中，小模型不仅从真实标签学习，还从大模型的输出分布中学习。这解释了为何Gemma在基准测试中表现超出其参数规模预期。

| 模型 | 参数 | 训练token数 | MMLU (5-shot) | HellaSwag | GSM8K | HumanEval (Pass@1) |
|---|---|---|---|---|---|
| Gemma 7B | 7.2B | 6T | 64.3% | 82.2% | 46.4% | 32.3% |
| Gemma 2B | 2.5B | 2T | 42.3% | 71.4% | 17.7% | 22.0% |
| Llama 2 7B | 6.7B | 2T | 45.3% | 77.2% | 14.6% | 12.8% |
| Mistral 7B | 7.3B | ~8T (估计) | 64.2% | 83.3% | 37.8% | 30.5% |
| Phi-2 2.7B | 2.7B | 1.4T | 56.7% | 75.8% | 61.1% | 47.6% |

数据要点： Gemma 7B在所有基准测试中均达到或超越Llama 2 7B，在推理任务（MMLU、GSM8K）上与Mistral 7B竞争激烈，但在常识推理（HellaSwag）和代码（HumanEval）上略逊一筹。20亿模型在数学（GSM8K）和代码（HumanEval）上表现惊人，但不及微软Phi-2——后者专门针对推理任务使用合成数据训练。Gemma的优势在于安全过滤：根据Google发布的评估，该模型在RealToxicityPrompts数据集上的毒性得分为0.12，而Llama 2为0.21，Mistral为0.18。

GitHub仓库（google-deepmind/gemma）提供了JAX、PyTorch和Keras 3.0的参考实现。JAX版本利用`jax.lax`实现高效的TPU/GPU执行，而PyTorch版本使用`torch.compile`加速。一个值得注意的社区分支`huggingface/transformers`已通过`AutoModelForCausalLM`接口支持Gemma，可立即使用LoRA进行微调。该仓库还包含一个`gemma.cpp`推理引擎，用于CPU部署，这对于此规模模型而言极为罕见，表明Google有意瞄准边缘设备。

关键玩家与案例研究

Google DeepMind发布Gemma，是对以Meta的Llama 2、Mistral AI和微软Phi系列为主导的开源大语言模型生态的直接回应。每个玩家都有独特策略：

- Meta（Llama 2）： 2023年7月发布，Llama 2 7B/13B/70B成为开源大语言模型的事实标准，在Hugging Face上下载量超过1亿次。Meta的策略是生态锁定——通过使Llama免费用于商业用途（对月活跃用户超过7亿的应用有限制），推动其AI基础设施和广告工具的采用。
- Mistral AI： 一家法国初创公司，2023年9月发布Mistral 7B，凭借其性能与规模比迅速获得关注。Mistral采用宽松的Apache 2.0许可证，已以20亿美元估值融资4.5亿欧元。其重点在于开发者体验和低延迟推理。
- 微软（Phi-2）： 一个27亿参数模型，在合成数据“教科书”上训练，取得了卓越的推理得分。Phi-2是微软推动小型模型商品化以服务Azure AI的更广泛战略的一部分，瞄准成本敏感的企业部署。
- Google DeepMind（Gemma）： 凭借Gemini的研究血统和Google Cloud集成进入市场。Gemma可在Vertex AI Model Garden、Colab以及Google的Generative AI Studio中使用。许可证宽松（类似于Llama 2），但Google要求署名并禁止用于某些高风险应用。

| 特性 | Gemma 7B | Llama 2 7B | Mistral 7B | Phi-2 2.7B |
|---|---|---|---|---|
| 许可证 | 自定义（宽松） | 自定义（宽松） | Apache 2.0 | MIT |
| 框架 | PyTorch, JAX, Keras | PyTorch, Transformers | PyTorch, Transformers | PyTorch, Transformers |
| 最大上下文长度 | 8192 | 4096 | 8192 | 2048 |
| 安全工具包 | 有（负责任AI） | 有限 | 无 | 无 |
| 云集成 | Vertex AI, Colab | AWS, Azure, GCP（通过合作伙伴） | Azure, GCP | Azure |
| 微调支持 | Lo

常见问题

GitHub 热点“Google DeepMind Gemma: Open-Weight LLMs Reshape AI Accessibility”主要讲了什么？

On February 21, 2024, Google DeepMind launched Gemma, an open-weight LLM library that marks a significant strategic shift for the tech giant. Unlike the proprietary Gemini models…

这个 GitHub 项目在“Gemma vs Llama 2 benchmark comparison”上为什么会引发关注？

Gemma’s architecture is a distilled version of the Gemini family, but with deliberate design choices for efficiency. Both the 2B and 7B models use a decoder-only transformer with multi-query attention (MQA) instead of th…

从“Gemma fine-tuning with LoRA tutorial”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 5056，近一日增长约为 512，这说明它在开源社区具有较强讨论度和扩散能力。

Google DeepMind Gemma：开源权重大模型重塑AI可及性

技术深度解析

关键玩家与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题