技术深度解析
Gemini Omni的突破在于它摒弃了主导多模态AI领域的“后期融合”架构。在后期融合模型中——以GPT-4V或早期版本的LLaVA等系统为代表——每种模态都由一个专用编码器处理(例如,用于图像的ViT,用于音频的Whisper风格模型),然后将生成的嵌入向量拼接或投影到大语言模型的Token空间中。这造成了一个根本性的瓶颈:跨模态交互仅限于最后几层,这意味着模型无法利用例如特定像素区域与同一时刻发出的音素之间的细粒度对应关系。
Gemini Omni采用了一种原生早期融合方法。其关键洞察在于将所有输入模态——像素、音频波形、文本Token——表示为单一的、高维的Token序列。这是通过一个统一的Tokenizer实现的,该Tokenizer使用共享词汇表将连续信号(图像、音频)映射为离散Token。然后,模型通过一个单一的Transformer堆栈处理这个交错序列,其中自注意力机制可以直接建模任意两个Token之间的关系,无论它们来自何种模态。例如,注意力头可以学习到代表红灯的视觉Token与代表哔哔声的音频Token与“停止”指令相关联。
这种架构计算密集但概念优雅。模型的上下文窗口必须容纳图像和音频的高Token密度。早期报告表明,Gemini Omni使用至少100万个Token的上下文窗口,并采用稀疏注意力机制(很可能是FlashAttention-3的变体)来保持推理的可行性。训练目标是跨所有模态的统一下一个Token预测,迫使模型从头开始学习跨模态依赖关系。
| 架构特性 | Gemini Omni (原生早期融合) | GPT-4o (后期融合) | Claude 3.5 (后期融合) |
|---|---|---|---|
| 模态集成 | 单一Transformer,统一Token流 | 独立编码器 + 交叉注意力 | 独立编码器 + MLP投影 |
| 跨模态延迟 | <100ms (端到端) | ~300-500ms (编码器 + 融合) | ~400-600ms |
| 上下文窗口 | 100万Token (估计) | 12.8万Token | 20万Token |
| 音频处理 | 原始波形的原生Token化 | 仅文本转录 | 仅文本转录 |
| 视频推理 | 实时帧级融合 | 帧采样 + 文本 | 帧采样 + 文本 |
数据要点: 原生早期融合的延迟优势非常明显——低于100毫秒,而后期融合模型为300-600毫秒。这对于自动驾驶或实时客户支持等实时应用至关重要,因为每一毫秒都至关重要。100万Token的上下文窗口还使得无需截断即可处理长视频或扩展的音频对话。
一个探索类似想法的相关开源项目是UniLM(微软研究院),它提出了一个用于文本和图像的统一预训练框架。然而,目前还没有开源模型能够实现Gemini Omni所展示的完整的音频-视频-文本融合。LLaVA-NeXT仓库(目前在GitHub上约有1.8万颗星)是最接近的竞争对手,但它仍然依赖于独立的视觉编码器和投影层,使其成为一个后期融合模型。社区正在积极探索早期融合方法,Fuyu-8B(Adept AI)是一个值得注意的尝试,尽管它缺乏音频支持。
关键参与者与案例研究
Google DeepMind是Gemini Omni的明确创造者,它建立在多年多模态学习研究的基础上(例如Flamingo、PaLI和最初的Gemini模型)。由Jeff Dean和Demis Hassabis领导的团队已从模块化方法(Gemini 1.0)转向统一架构(Omni)。这是一个战略性的转变:Google的云业务(GCP)很可能会将Gemini Omni作为单一的API端点提供,用于视觉、语音和文本,从而削弱需要多次API调用的竞争对手。
竞争格局:
| 公司 | 产品 | 模态 | 架构 | 定价 (每100万Token) | 关键用例 |
|---|---|---|---|---|---|
| Google DeepMind | Gemini Omni | 文本、图像、音频、视频 | 原生早期融合 | $7.50 (估计) | 实时多模态代理 |
| OpenAI | GPT-4o | 文本、图像、音频 (转录) | 后期融合 | $5.00 | 通用聊天、视觉 |
| Anthropic | Claude 3.5 Sonnet | 文本、图像 | 后期融合 | $3.00 | 文档分析、编码 |
| Meta | Llama 3.2 (Vision) | 文本、图像 | 后期融合 | 免费 (开放权重) | 研究、设备端 |
数据要点: Gemini Omni的定价较高(估计每100万Token 7.50美元),而GPT-4o为5.00美元,Claude 3.5为3.00美元。然而,对于构建多模态应用的企业来说,总拥有成本可能更低,因为他们不再需要为单独的语音转文本、图像分析和文本生成API付费。统一的API降低了集成复杂性。