Gemma 4 12B 弃用编码器:边缘AI效率的新蓝图

DeepMind Blog June 2026
来源:DeepMind Blogedge AI归档:June 2026
谷歌最新开源模型 Gemma 4 12B 摒弃了传统的视觉编码器,直接在单一 Transformer 主干中处理图像和文本。这一大胆设计大幅降低了推理延迟和内存占用,在智能手机和物联网设备上解锁了实时多模态能力。AINews 认为,这不仅是优化,更是对基于编码器的多模态架构的根本性挑战。

谷歌发布了 Gemma 4 12B,一个 120 亿参数的多模态模型,完全舍弃了传统的视觉编码器。不同于使用 CLIP 等独立模块提取图像特征,Gemma 4 12B 将原始图像块直接输入到处理文本的同一 Transformer 层中。这种统一的、仅解码器架构显著减小了模型尺寸和计算开销,在标准硬件上推理速度比同类基于编码器的模型快 3 倍,内存占用降低超过 40%。该模型在 VQAv2(81.2%)和 MMMU(58.7%)等基准测试中取得了有竞争力的性能,同时可部署在仅 8GB RAM 的设备上。对开发者而言,这意味着实时视觉问答、文档解析和增强现实应用的门槛被大幅降低。

技术深度解析

Gemma 4 12B 的核心创新在于其无编码器架构。传统的多模态模型(例如 LLaVA、Qwen-VL)使用冻结或微调的视觉编码器——通常是 ViT 或 CLIP 变体——将图像转换为视觉 token 序列。这些 token 随后通过一个连接器(通常是简单的 MLP 或 Q-Former)投影到文本模型的嵌入空间。Gemma 4 12B 完全消除了这一流程。相反,它将图像块视为直接输入 token,送入处理文本的同一 Transformer 解码器。该模型使用 2D 位置编码方案来保留空间关系,注意力机制在训练过程中从头学习跨模态交互。

架构细节:
- 基础模型:120 亿参数,仅解码器 Transformer,40 层,32 个注意力头,隐藏维度 5,120。
- 图像处理:输入图像调整为 448×448 像素,分割为 16×16 像素块(每张图像 784 个块)。每个块线性投影为 5,120 维向量,与文本 token 嵌入匹配。
- 训练:模型在 2.5 万亿 token(文本)和 12 亿图像-文本对上进行预训练,结合了下一个 token 预测和对比损失,在最终层对齐图像和文本表示。
- 推理优化:使用 FlashAttention-2、4 位量化(通过 bitsandbytes)和用于高效块嵌入的自定义内核。在单块 NVIDIA RTX 4090(24GB VRAM)上,Gemma 4 12B 在纯文本生成时达到 45 token/秒,多模态推理(包括图像处理)时达到 12 token/秒。

基准测试性能:

| 模型 | 参数 | VQAv2 | MMMU | TextVQA | 延迟(毫秒/图像) | 内存(GB) |
|---|---|---|---|---|---|---|
| Gemma 4 12B | 12B | 81.2% | 58.7% | 74.5% | 85 | 7.2 |
| LLaVA-1.6 13B | 13B | 82.1% | 56.3% | 75.1% | 210 | 12.4 |
| Qwen-VL 7B | 7B | 78.9% | 52.1% | 71.8% | 145 | 8.9 |
| Phi-3.5-vision 4.2B | 4.2B | 76.4% | 48.9% | 68.3% | 95 | 5.1 |

数据要点: Gemma 4 12B 在精度上匹配或超越 13B 的 LLaVA 模型,同时内存使用减少 42%,延迟降低 2.5 倍。这一效率提升直接归因于去除了编码器及其相关的投影层。

相关开源资源:
- 模型权重可在 Hugging Face 上获取,仓库名为 `google/gemma-4-12b-it`。
- GitHub 上的社区仓库 `gemma-4-edge` 提供了在 Raspberry Pi 5 和 NVIDIA Jetson Orin 上部署模型的脚本,上线第一周即获得超过 1,200 颗星。
- 谷歌还发布了一个 Colab 笔记本,演示了使用该模型进行实时基于摄像头的 VQA。

要点: 无编码器设计不仅仅是简化,而是一种刻意的权衡。通过牺牲编码器专门的视觉特征提取能力,模型必须从头学习跨模态对齐,这需要更多的训练数据和计算资源。然而,对于延迟和内存是主要限制的边缘部署场景,这种权衡是压倒性的积极选择。

关键参与者与案例研究

谷歌(Alphabet):Gemma 4 12B 的主要推动者。谷歌的策略是双重的:首先,推进其开源 Gemma 系列,作为 Meta 的 LLaMA 和微软的 Phi 系列的制衡力量;其次,创建一个能在其自有 TPU 硬件上最优运行的模型。该公司一直在大力投资边缘 AI,其 Pixel 手机已使用设备端模型进行照片编辑和实时翻译。Gemma 4 12B 直接赋能更复杂的设备端任务,如视觉搜索和增强现实导航。

竞争模型及其方法:

| 模型 | 架构 | 编码器? | 优势 | 劣势 |
|---|---|---|---|---|
| LLaVA-1.6 13B | Vicuna + CLIP ViT-L | 是 | 复杂推理上精度高 | 延迟高,内存大 |
| Qwen-VL 7B | Qwen + ViT | 是 | 多语言支持好 | 在边缘硬件上比 Gemma 慢 |
| Phi-3.5-vision 4.2B | Phi-3 + CLIP | 是 | 极小的模型体积 | 细粒度任务精度较低 |
| Gemma 4 12B | 仅解码器 | 否 | 最佳的延迟/内存权衡 | 需要更多训练数据 |

案例研究:实时文档解析用于无障碍访问
一家名为 SightSync(与谷歌无关联)的初创公司使用 Gemma 4 12B 构建了一款移动应用,为视障用户朗读打印文本。使用 LLaVA-1.6 时,该应用每页有 3 秒延迟,无法正常使用。改用 Gemma 4 12B 后,延迟降至 0.8 秒,且应用完全在标准 iPhone 15 Pro 上本地运行,无需云端调用。SightSync 报告称,切换后用户留存率提升了 70%。

案例研究:在 Raspberry Pi 上进行工业检测
一个名为 EdgeInspect 的开源项目将 Gemma 4 12B 部署在 Raspberry Pi 5 上,用于检测装配线上的缺陷。该模型处理一张 448×448 图像耗时 120 毫秒,而最接近的竞品需要 350 毫秒。

更多来自 DeepMind Blog

Gemini 3.5 Live Translate 终结机器人腔,开启自然实时语音翻译新纪元谷歌正式推出 Gemini 3.5 Live Translate,一项从根本上重新定义实时跨语言通信的技术。与以往将翻译准确性与自然语音合成视为独立问题的系统不同,Gemini 3.5 将它们整合到一个统一的流水线中。其核心创新不仅在于将延非洲AI教育实证:塞拉利昂RCT证明Gemini显著提升学习成果塞拉利昂的实验并非又一个试点项目,而是一次对AI作为真正教学伙伴能力的科学严谨验证。该试验在数十所学校进行,将使用Gemini“引导式学习”模式的课堂与接受标准教学的对照组进行对比。结果令人瞩目:AI组学生的考试成绩提高了30%,自我报告的Gemini for Science:AI从工具进化为科学发现伙伴谷歌推出Gemini for Science,标志着人工智能在基础研究应用中的一个关键时刻。与以往那些充当被动助手——按指令分析数据或运行模拟——的AI工具不同,这套新系统被设计为自主协作伙伴。其核心创新在于一个闭环推理系统:它能吸收科学文查看来源专题页DeepMind Blog 已收录 12 篇文章

相关专题

edge AI108 篇相关文章

时间归档

June 2026862 篇已发布文章

延伸阅读

Gemma 4 12B 杀死编码器:统一多模态AI的新纪元谷歌Gemma 4 12B彻底移除视觉编码器,将视觉与语言处理融合为单一统一架构。这一激进设计大幅降低计算成本,同时在基准测试中达到媲美更大规模编码器模型的成绩,预示着轻量化、可部署于边缘设备的多模态AI可能迎来范式转变。Gemini 3.5 Live Translate 终结机器人腔,开启自然实时语音翻译新纪元谷歌 Gemini 3.5 Live Translate 将近乎瞬时的翻译与自然的语音韵律融为一体,彻底消除了长期困扰机器翻译的机械延迟与平淡语调。这一突破现已登陆 Google Translate、Google Meet 和 AI Stu非洲AI教育实证:塞拉利昂RCT证明Gemini显著提升学习成果一项在塞拉利昂开展的严格随机对照试验(RCT)证实,Google Gemini的引导式学习功能能够大幅提升学生参与度并加速学习进程。这一实证验证标志着AI在教育领域的转折点,证明其价值不仅限于富裕国家的课堂,更为全球6亿缺乏基础读写能力的儿Gemini for Science:AI从工具进化为科学发现伙伴谷歌发布Gemini for Science,一套标志着科学方法论根本性转变的AI工具。通过将多模态推理与自主实验设计相结合,该系统不再仅仅是数据处理者,而是主动提出并验证假设,真正成为全方位的科研合作伙伴。

常见问题

这次模型发布“Gemma 4 12B Drops the Encoder: A New Blueprint for Edge AI Efficiency”的核心内容是什么?

Google has released Gemma 4 12B, a 12-billion-parameter multimodal model that dispenses with the traditional visual encoder. Instead of using a separate module like CLIP to extract…

从“How does Gemma 4 12B compare to LLaVA for real-time applications?”看,这个模型发布为什么重要?

The core innovation in Gemma 4 12B is its no-encoder architecture. Traditional multimodal models (e.g., LLaVA, Qwen-VL) use a frozen or fine-tuned vision encoder—typically a ViT or CLIP variant—to convert images into a s…

围绕“Can Gemma 4 12B run on a Raspberry Pi 5?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。