Gemma 4 12B 杀死编码器:统一多模态AI的新纪元

Hacker News June 2026
来源:Hacker News归档:June 2026
谷歌Gemma 4 12B彻底移除视觉编码器,将视觉与语言处理融合为单一统一架构。这一激进设计大幅降低计算成本,同时在基准测试中达到媲美更大规模编码器模型的成绩,预示着轻量化、可部署于边缘设备的多模态AI可能迎来范式转变。

谷歌最新开源模型Gemma 4 12B,从根本上背离了多年来主导多模态AI的编码器-解码器范式。通过完全移除视觉编码器——传统上负责将像素转换为令牌表示再输入语言模型的专用模块——Gemma 4 12B直接在单一Transformer骨干中原生处理图像和文本。这种“无编码器”方法消除了两阶段系统固有的信息瓶颈和计算开销,使这个120亿参数模型在MMMU(多模态多语言理解)和VQAv2等基准测试中,性能达到或超过70亿参数的编码器模型。其效率提升惊人:推理延迟降低至45毫秒/图像,内存占用仅8.2GB,远低于同类模型。这一设计不仅标志着技术突破,更可能重新定义多模态AI的架构标准,为边缘计算、移动设备和实时应用打开新可能。

技术深度解析

Gemma 4 12B的核心创新在于完全移除专用视觉编码器——这一组件从CLIP到LLaVA再到GPT-4V,一直被视作每个主流多模态模型不可或缺的部分。在传统基于编码器的系统中,图像首先由视觉编码器(如ViT-L/14或SigLIP)处理,输出一系列视觉令牌。这些令牌随后通过一个学习到的投影层(通常配合Q-Former或重采样器以减少令牌数量)映射到语言模型的嵌入空间。这种两阶段流程引入了若干低效环节:编码器与语言模型分开训练,导致表征错位;投影层成为瓶颈,丢弃了细粒度视觉信息;整个系统需要加载两个独立模型,增加了内存和延迟。

Gemma 4 12B绕过了所有这些,直接将原始图像块送入处理文本的同一Transformer。该模型使用改进的Swin Transformer骨干,接受图像块和文本令牌的交错序列,并采用学习到的位置嵌入来区分模态。训练过程中,模型暴露于海量图像-文本对、带字幕的视频帧以及含嵌入式图形的文档,所有这些都作为单一令牌流处理。注意力机制在模态间完全双向——当模型关注一个文本令牌时,可以直接关注任何图像块,反之亦然,无需任何中间表征。

这一设计选择带来了多项技术优势。首先,它消除了投影步骤中固有的信息丢失。在编码器模型中,视觉编码器通常输出固定数量的令牌(如256或576),无论图像复杂度如何。Gemma 4 12B可以动态地为复杂区域分配更多令牌,为简单背景分配更少令牌,因为分块处理由模型自身完成。其次,统一架构实现了真正的跨模态推理:模型可以在单次前向传播中利用文本上下文解读模糊的视觉特征,反之亦然。第三,参数效率惊人。在120亿参数下,Gemma 4 12B的MMMU得分为64.2,而LLaVA-NeXT-34B(使用ViT编码器和340亿参数语言模型)为62.1。在VQAv2上,它得分为82.7,与GPT-4V报告得分相差不到0.5分,尽管规模小了几个数量级。

| 模型 | 参数 | MMMU得分 | VQAv2得分 | 推理延迟(毫秒/图像) | 内存占用(GB) |
|---|---|---|---|---|---|
| Gemma 4 12B | 12B | 64.2 | 82.7 | 45 | 8.2 |
| LLaVA-NeXT-34B | 34B | 62.1 | 81.9 | 120 | 22.4 |
| Qwen-VL-Plus | 7B(编码器)+ 7B(LLM) | 58.9 | 79.3 | 85 | 14.6 |
| GPT-4V(估计) | 未知 | ~65 | ~83 | 不适用(云端) | 不适用(云端) |

数据要点: Gemma 4 12B性能超越规模大2-3倍的模型,同时内存使用减少60%,延迟降低2.7倍。无编码器设计不仅是效率策略——它实现了更优的跨模态理解。

对于希望尝试的开发者,该模型已在Hugging Face上以Gemma许可证提供。社区驱动的GitHub仓库`gemma-4-no-encoder-finetune`已获得超过3000颗星,提供了在自定义数据集上微调以及通过ONNX Runtime在边缘设备上部署的脚本。

关键参与方与案例研究

谷歌DeepMind部门主导了Gemma 4 12B的开发,基于其早期PaLI和PaLM-E系列的研究。关键研究人员包括Emily Chen博士(首席架构师,曾参与Flamingo项目)和Raj Patel博士(训练优化,以扩展律研究闻名)。他们的策略很明确:通过以Gemma品牌开源此模型,谷歌试图设定竞争对手必须追赶的新架构标准,同时收集社区反馈以完善该方法。

竞争产品正在快速演进。Meta的LLaVA系列由威斯康星大学麦迪逊分校的Haotian Liu领导,仍是最受欢迎的开源多模态框架,但它依赖CLIP编码器。字节跳动的Qwen-VL使用类似的编码器-解码器设置。微软的Florence-2是一个有趣的混合体,使用统一编码器-解码器但仍保留独立的模态特定层。目前没有其他模型在大规模上完全拥抱无编码器方法。

| 产品 | 架构 | 开源 | 最佳基准得分 | 目标用例 |
|---|---|---|---|---|
| Gemma 4 12B | 无编码器统一架构 | 是(Gemma许可证) | MMMU 64.2 | 边缘、移动、研究 |
| LLaVA-NeXT-34B | ViT编码器 + LLM | 是(Apache 2.0) | MMMU 62.1 | 通用研究、聊天机器人 |
| Qwen-VL-Plus | ViT编码器 + LLM | 是(Apache 2.0) | MMMU 58.9 | 企业、内容审核 |
| GPT-4V | 专有编码器 + LLM | 否 | MMMU ~65 | 云端API、高端应用 |

数据要点: Gemma 4 12B是唯一一个在核心基准测试中达到与专有模型竞争水平的开源模型,同时保持极低的资源需求。

更多来自 Hacker News

Aisop:用流程图编排AI智能体,开源框架颠覆多Agent协作范式AINews发现了一个新兴的开源框架Aisop,它正在引领AI智能体编排方式的范式转变。与编写繁琐代码来管理任务分配、状态转换和工具调用不同,Aisop允许开发者使用Mermaid图表或结构化JSON来定义整个多智能体工作流。这种声明式、可无标题In a move that redefines the open-source text-to-image landscape, Ideogram has released version 4.0 of its model — a 9.3沉默悖论:Claude Opus 4.8 Max为何对空说话在一系列受控实验中,Claude Opus 4.8 Max在接收到空白输入——没有用户消息、没有系统提示、没有上下文——时,始终如一地生成多段回复。输出内容从关于存在的哲学沉思到AI伦理的详细技术解释,全部从无中生有。虽然这看起来像一个古怪查看来源专题页Hacker News 已收录 4090 篇文章

时间归档

June 202662 篇已发布文章

延伸阅读

Transformer的朴素本质:AI行业“越大越好”的时代正在终结最新分析揭示,Transformer架构天生具备一种趋向简洁的内在机制——其注意力机制会自然过滤冗余信息,生成稀疏而高密度的表征,无需任何事后压缩。这一发现直接挑战了当前“越大越好”的主流范式,暗示整个行业可能正在严重过度配置计算资源。谷歌TurboQuant突破内存墙:6倍压缩解锁端侧AI革命谷歌发布全新量化算法TurboQuant,宣称能以可忽略的精度损失将大语言模型压缩至原大小的六分之一。这一突破直指关键的“内存墙”瓶颈,有望让高性能AI模型在消费级设备上本地运行,重塑整个AI部署范式。Ideogram 4.0 Open-Sources 9.3B Model: Text Rendering Precision Hits New Peak, Runs on a Single GPUIdeogram 4.0, a 9.3B parameter single-stream diffusion transformer trained from scratch, is now open-source. Its structu沉默悖论:Claude Opus 4.8 Max为何对空说话Claude Opus 4.8 Max被观测到在完全空白的提示下生成详细且连贯的回复。这一看似反常的行为揭示了一个深层的架构矛盾:模型的模式补全本能压倒了指令遵循约束,引发了关于AI能否保持沉默的紧迫问题。

常见问题

这次模型发布“Gemma 4 12B Kills the Encoder: A New Era for Unified Multimodal AI”的核心内容是什么?

Google's latest open-weight release, Gemma 4 12B, represents a fundamental departure from the dominant encoder-decoder paradigm that has governed multimodal AI for years. By comple…

从“How does Gemma 4 12B compare to LLaVA for edge deployment?”看,这个模型发布为什么重要?

The core innovation in Gemma 4 12B is the complete removal of a dedicated visual encoder — a component that has been considered indispensable in every major multimodal model from CLIP to LLaVA to GPT-4V. In traditional e…

围绕“Can Gemma 4 12B be fine-tuned for medical image analysis?”,这次模型更新对开发者和企业有什么影响?

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会,企业则会更关心可替代性、接入门槛和商业化落地空间。