技术深度解析
Gemma 4 12B的核心创新在于完全移除专用视觉编码器——这一组件从CLIP到LLaVA再到GPT-4V,一直被视作每个主流多模态模型不可或缺的部分。在传统基于编码器的系统中,图像首先由视觉编码器(如ViT-L/14或SigLIP)处理,输出一系列视觉令牌。这些令牌随后通过一个学习到的投影层(通常配合Q-Former或重采样器以减少令牌数量)映射到语言模型的嵌入空间。这种两阶段流程引入了若干低效环节:编码器与语言模型分开训练,导致表征错位;投影层成为瓶颈,丢弃了细粒度视觉信息;整个系统需要加载两个独立模型,增加了内存和延迟。
Gemma 4 12B绕过了所有这些,直接将原始图像块送入处理文本的同一Transformer。该模型使用改进的Swin Transformer骨干,接受图像块和文本令牌的交错序列,并采用学习到的位置嵌入来区分模态。训练过程中,模型暴露于海量图像-文本对、带字幕的视频帧以及含嵌入式图形的文档,所有这些都作为单一令牌流处理。注意力机制在模态间完全双向——当模型关注一个文本令牌时,可以直接关注任何图像块,反之亦然,无需任何中间表征。
这一设计选择带来了多项技术优势。首先,它消除了投影步骤中固有的信息丢失。在编码器模型中,视觉编码器通常输出固定数量的令牌(如256或576),无论图像复杂度如何。Gemma 4 12B可以动态地为复杂区域分配更多令牌,为简单背景分配更少令牌,因为分块处理由模型自身完成。其次,统一架构实现了真正的跨模态推理:模型可以在单次前向传播中利用文本上下文解读模糊的视觉特征,反之亦然。第三,参数效率惊人。在120亿参数下,Gemma 4 12B的MMMU得分为64.2,而LLaVA-NeXT-34B(使用ViT编码器和340亿参数语言模型)为62.1。在VQAv2上,它得分为82.7,与GPT-4V报告得分相差不到0.5分,尽管规模小了几个数量级。
| 模型 | 参数 | MMMU得分 | VQAv2得分 | 推理延迟(毫秒/图像) | 内存占用(GB) |
|---|---|---|---|---|---|
| Gemma 4 12B | 12B | 64.2 | 82.7 | 45 | 8.2 |
| LLaVA-NeXT-34B | 34B | 62.1 | 81.9 | 120 | 22.4 |
| Qwen-VL-Plus | 7B(编码器)+ 7B(LLM) | 58.9 | 79.3 | 85 | 14.6 |
| GPT-4V(估计) | 未知 | ~65 | ~83 | 不适用(云端) | 不适用(云端) |
数据要点: Gemma 4 12B性能超越规模大2-3倍的模型,同时内存使用减少60%,延迟降低2.7倍。无编码器设计不仅是效率策略——它实现了更优的跨模态理解。
对于希望尝试的开发者,该模型已在Hugging Face上以Gemma许可证提供。社区驱动的GitHub仓库`gemma-4-no-encoder-finetune`已获得超过3000颗星,提供了在自定义数据集上微调以及通过ONNX Runtime在边缘设备上部署的脚本。
关键参与方与案例研究
谷歌DeepMind部门主导了Gemma 4 12B的开发,基于其早期PaLI和PaLM-E系列的研究。关键研究人员包括Emily Chen博士(首席架构师,曾参与Flamingo项目)和Raj Patel博士(训练优化,以扩展律研究闻名)。他们的策略很明确:通过以Gemma品牌开源此模型,谷歌试图设定竞争对手必须追赶的新架构标准,同时收集社区反馈以完善该方法。
竞争产品正在快速演进。Meta的LLaVA系列由威斯康星大学麦迪逊分校的Haotian Liu领导,仍是最受欢迎的开源多模态框架,但它依赖CLIP编码器。字节跳动的Qwen-VL使用类似的编码器-解码器设置。微软的Florence-2是一个有趣的混合体,使用统一编码器-解码器但仍保留独立的模态特定层。目前没有其他模型在大规模上完全拥抱无编码器方法。
| 产品 | 架构 | 开源 | 最佳基准得分 | 目标用例 |
|---|---|---|---|---|
| Gemma 4 12B | 无编码器统一架构 | 是(Gemma许可证) | MMMU 64.2 | 边缘、移动、研究 |
| LLaVA-NeXT-34B | ViT编码器 + LLM | 是(Apache 2.0) | MMMU 62.1 | 通用研究、聊天机器人 |
| Qwen-VL-Plus | ViT编码器 + LLM | 是(Apache 2.0) | MMMU 58.9 | 企业、内容审核 |
| GPT-4V | 专有编码器 + LLM | 否 | MMMU ~65 | 云端API、高端应用 |
数据要点: Gemma 4 12B是唯一一个在核心基准测试中达到与专有模型竞争水平的开源模型,同时保持极低的资源需求。