Gemma 4 12B 弃用编码器：边缘AI效率的新蓝图

2026年6月9日 22:31 AINews DeepMind Blog June 2026

来源：DeepMind Blog edge AI 归档：June 2026

谷歌最新开源模型 Gemma 4 12B 摒弃了传统的视觉编码器，直接在单一 Transformer 主干中处理图像和文本。这一大胆设计大幅降低了推理延迟和内存占用，在智能手机和物联网设备上解锁了实时多模态能力。AINews 认为，这不仅是优化，更是对基于编码器的多模态架构的根本性挑战。

谷歌发布了 Gemma 4 12B，一个 120 亿参数的多模态模型，完全舍弃了传统的视觉编码器。不同于使用 CLIP 等独立模块提取图像特征，Gemma 4 12B 将原始图像块直接输入到处理文本的同一 Transformer 层中。这种统一的、仅解码器架构显著减小了模型尺寸和计算开销，在标准硬件上推理速度比同类基于编码器的模型快 3 倍，内存占用降低超过 40%。该模型在 VQAv2（81.2%）和 MMMU（58.7%）等基准测试中取得了有竞争力的性能，同时可部署在仅 8GB RAM 的设备上。对开发者而言，这意味着实时视觉问答、文档解析和增强现实应用的门槛被大幅降低。

技术深度解析

Gemma 4 12B 的核心创新在于其无编码器架构。传统的多模态模型（例如 LLaVA、Qwen-VL）使用冻结或微调的视觉编码器——通常是 ViT 或 CLIP 变体——将图像转换为视觉 token 序列。这些 token 随后通过一个连接器（通常是简单的 MLP 或 Q-Former）投影到文本模型的嵌入空间。Gemma 4 12B 完全消除了这一流程。相反，它将图像块视为直接输入 token，送入处理文本的同一 Transformer 解码器。该模型使用 2D 位置编码方案来保留空间关系，注意力机制在训练过程中从头学习跨模态交互。

架构细节：
- 基础模型：120 亿参数，仅解码器 Transformer，40 层，32 个注意力头，隐藏维度 5,120。
- 图像处理：输入图像调整为 448×448 像素，分割为 16×16 像素块（每张图像 784 个块）。每个块线性投影为 5,120 维向量，与文本 token 嵌入匹配。
- 训练：模型在 2.5 万亿 token（文本）和 12 亿图像-文本对上进行预训练，结合了下一个 token 预测和对比损失，在最终层对齐图像和文本表示。
- 推理优化：使用 FlashAttention-2、4 位量化（通过 bitsandbytes）和用于高效块嵌入的自定义内核。在单块 NVIDIA RTX 4090（24GB VRAM）上，Gemma 4 12B 在纯文本生成时达到 45 token/秒，多模态推理（包括图像处理）时达到 12 token/秒。

基准测试性能：

| 模型 | 参数 | VQAv2 | MMMU | TextVQA | 延迟（毫秒/图像） | 内存（GB） |
|---|---|---|---|---|---|---|
| Gemma 4 12B | 12B | 81.2% | 58.7% | 74.5% | 85 | 7.2 |
| LLaVA-1.6 13B | 13B | 82.1% | 56.3% | 75.1% | 210 | 12.4 |
| Qwen-VL 7B | 7B | 78.9% | 52.1% | 71.8% | 145 | 8.9 |
| Phi-3.5-vision 4.2B | 4.2B | 76.4% | 48.9% | 68.3% | 95 | 5.1 |

数据要点： Gemma 4 12B 在精度上匹配或超越 13B 的 LLaVA 模型，同时内存使用减少 42%，延迟降低 2.5 倍。这一效率提升直接归因于去除了编码器及其相关的投影层。

相关开源资源：
- 模型权重可在 Hugging Face 上获取，仓库名为 `google/gemma-4-12b-it`。
- GitHub 上的社区仓库 `gemma-4-edge` 提供了在 Raspberry Pi 5 和 NVIDIA Jetson Orin 上部署模型的脚本，上线第一周即获得超过 1,200 颗星。
- 谷歌还发布了一个 Colab 笔记本，演示了使用该模型进行实时基于摄像头的 VQA。

要点： 无编码器设计不仅仅是简化，而是一种刻意的权衡。通过牺牲编码器专门的视觉特征提取能力，模型必须从头学习跨模态对齐，这需要更多的训练数据和计算资源。然而，对于延迟和内存是主要限制的边缘部署场景，这种权衡是压倒性的积极选择。

关键参与者与案例研究

谷歌（Alphabet）：Gemma 4 12B 的主要推动者。谷歌的策略是双重的：首先，推进其开源 Gemma 系列，作为 Meta 的 LLaMA 和微软的 Phi 系列的制衡力量；其次，创建一个能在其自有 TPU 硬件上最优运行的模型。该公司一直在大力投资边缘 AI，其 Pixel 手机已使用设备端模型进行照片编辑和实时翻译。Gemma 4 12B 直接赋能更复杂的设备端任务，如视觉搜索和增强现实导航。

竞争模型及其方法：

| 模型 | 架构 | 编码器？ | 优势 | 劣势 |
|---|---|---|---|---|
| LLaVA-1.6 13B | Vicuna + CLIP ViT-L | 是 | 复杂推理上精度高 | 延迟高，内存大 |
| Qwen-VL 7B | Qwen + ViT | 是 | 多语言支持好 | 在边缘硬件上比 Gemma 慢 |
| Phi-3.5-vision 4.2B | Phi-3 + CLIP | 是 | 极小的模型体积 | 细粒度任务精度较低 |
| Gemma 4 12B | 仅解码器 | 否 | 最佳的延迟/内存权衡 | 需要更多训练数据 |

案例研究：实时文档解析用于无障碍访问
一家名为 SightSync（与谷歌无关联）的初创公司使用 Gemma 4 12B 构建了一款移动应用，为视障用户朗读打印文本。使用 LLaVA-1.6 时，该应用每页有 3 秒延迟，无法正常使用。改用 Gemma 4 12B 后，延迟降至 0.8 秒，且应用完全在标准 iPhone 15 Pro 上本地运行，无需云端调用。SightSync 报告称，切换后用户留存率提升了 70%。

案例研究：在 Raspberry Pi 上进行工业检测
一个名为 EdgeInspect 的开源项目将 Gemma 4 12B 部署在 Raspberry Pi 5 上，用于检测装配线上的缺陷。该模型处理一张 448×448 图像耗时 120 毫秒，而最接近的竞品需要 350 毫秒。

时间归档

常见问题

这次模型发布“Gemma 4 12B Drops the Encoder: A New Blueprint for Edge AI Efficiency”的核心内容是什么？

Google has released Gemma 4 12B, a 12-billion-parameter multimodal model that dispenses with the traditional visual encoder. Instead of using a separate module like CLIP to extract…

从“How does Gemma 4 12B compare to LLaVA for real-time applications?”看，这个模型发布为什么重要？

The core innovation in Gemma 4 12B is its no-encoder architecture. Traditional multimodal models (e.g., LLaVA, Qwen-VL) use a frozen or fine-tuned vision encoder—typically a ViT or CLIP variant—to convert images into a s…

围绕“Can Gemma 4 12B run on a Raspberry Pi 5?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。

Gemma 4 12B 弃用编码器：边缘AI效率的新蓝图

技术深度解析

关键参与者与案例研究

更多来自 DeepMind Blog

相关专题

时间归档

延伸阅读

常见问题