技术深度解析
Gemma的架构是Gemini家族的蒸馏版本,但在效率上做了精心设计。20亿和70亿参数模型均采用仅解码器Transformer,使用多查询注意力(MQA)而非更常见的多头注意力。MQA在所有查询头之间共享键和值头,降低内存带宽并加速推理——尤其在NVIDIA RTX 4090等消费级GPU上。模型采用旋转位置编码(RoPE)和GeGLU激活函数,这是现代大语言模型的标准配置。70亿模型拥有72亿参数、28层、16个注意力头、隐藏维度3072;20亿模型拥有25亿参数、18层、8个注意力头、隐藏维度2048。两者均使用256,000个token的词汇表,规模显著较大,能够高效处理多语言和代码密集型任务。
训练数据是关键差异化因素。70亿模型在6万亿token上训练,20亿模型在2万亿token上训练,数据来源包括网页文档、代码和数学内容,以英语为主。Google采用从更大Gemini模型进行知识蒸馏的技术来提升质量——这一过程中,小模型不仅从真实标签学习,还从大模型的输出分布中学习。这解释了为何Gemma在基准测试中表现超出其参数规模预期。
| 模型 | 参数 | 训练token数 | MMLU (5-shot) | HellaSwag | GSM8K | HumanEval (Pass@1) |
|---|---|---|---|---|---|
| Gemma 7B | 7.2B | 6T | 64.3% | 82.2% | 46.4% | 32.3% |
| Gemma 2B | 2.5B | 2T | 42.3% | 71.4% | 17.7% | 22.0% |
| Llama 2 7B | 6.7B | 2T | 45.3% | 77.2% | 14.6% | 12.8% |
| Mistral 7B | 7.3B | ~8T (估计) | 64.2% | 83.3% | 37.8% | 30.5% |
| Phi-2 2.7B | 2.7B | 1.4T | 56.7% | 75.8% | 61.1% | 47.6% |
数据要点: Gemma 7B在所有基准测试中均达到或超越Llama 2 7B,在推理任务(MMLU、GSM8K)上与Mistral 7B竞争激烈,但在常识推理(HellaSwag)和代码(HumanEval)上略逊一筹。20亿模型在数学(GSM8K)和代码(HumanEval)上表现惊人,但不及微软Phi-2——后者专门针对推理任务使用合成数据训练。Gemma的优势在于安全过滤:根据Google发布的评估,该模型在RealToxicityPrompts数据集上的毒性得分为0.12,而Llama 2为0.21,Mistral为0.18。
GitHub仓库(google-deepmind/gemma)提供了JAX、PyTorch和Keras 3.0的参考实现。JAX版本利用`jax.lax`实现高效的TPU/GPU执行,而PyTorch版本使用`torch.compile`加速。一个值得注意的社区分支`huggingface/transformers`已通过`AutoModelForCausalLM`接口支持Gemma,可立即使用LoRA进行微调。该仓库还包含一个`gemma.cpp`推理引擎,用于CPU部署,这对于此规模模型而言极为罕见,表明Google有意瞄准边缘设备。
关键玩家与案例研究
Google DeepMind发布Gemma,是对以Meta的Llama 2、Mistral AI和微软Phi系列为主导的开源大语言模型生态的直接回应。每个玩家都有独特策略:
- Meta(Llama 2): 2023年7月发布,Llama 2 7B/13B/70B成为开源大语言模型的事实标准,在Hugging Face上下载量超过1亿次。Meta的策略是生态锁定——通过使Llama免费用于商业用途(对月活跃用户超过7亿的应用有限制),推动其AI基础设施和广告工具的采用。
- Mistral AI: 一家法国初创公司,2023年9月发布Mistral 7B,凭借其性能与规模比迅速获得关注。Mistral采用宽松的Apache 2.0许可证,已以20亿美元估值融资4.5亿欧元。其重点在于开发者体验和低延迟推理。
- 微软(Phi-2): 一个27亿参数模型,在合成数据“教科书”上训练,取得了卓越的推理得分。Phi-2是微软推动小型模型商品化以服务Azure AI的更广泛战略的一部分,瞄准成本敏感的企业部署。
- Google DeepMind(Gemma): 凭借Gemini的研究血统和Google Cloud集成进入市场。Gemma可在Vertex AI Model Garden、Colab以及Google的Generative AI Studio中使用。许可证宽松(类似于Llama 2),但Google要求署名并禁止用于某些高风险应用。
| 特性 | Gemma 7B | Llama 2 7B | Mistral 7B | Phi-2 2.7B |
|---|---|---|---|---|
| 许可证 | 自定义(宽松) | 自定义(宽松) | Apache 2.0 | MIT |
| 框架 | PyTorch, JAX, Keras | PyTorch, Transformers | PyTorch, Transformers | PyTorch, Transformers |
| 最大上下文长度 | 8192 | 4096 | 8192 | 2048 |
| 安全工具包 | 有(负责任AI) | 有限 | 无 | 无 |
| 云集成 | Vertex AI, Colab | AWS, Azure, GCP(通过合作伙伴) | Azure, GCP | Azure |
| 微调支持 | Lo