技术深度解析
现代MLLM的架构通常遵循模块化设计:一个视觉编码器(如CLIP或SigLIP)、一个音频编码器(如Whisper或HuBERT)和一个文本解码器(如LLaMA或GPT风格的Transformer)。这些编码器将每种模态投影到一个共享嵌入空间中,然后由语言模型处理。关键假设是,这个共享空间能够实现跨模态推理。在实践中,它往往不能。
以广泛使用的LLaVA架构为例。它通过一个简单的线性投影层将CLIP视觉编码器连接到Vicuna语言模型。虽然这在图像描述等任务上表现良好,但它缺乏任何用于视觉和音频之间显式跨模态注意力的机制。当模型被给予一个带有冲突音频的视频——比如,视频显示一只猫而音频是狗叫声——模型通常会默认依赖视觉模态,因为视觉编码器在更多数据上训练过,且投影层并非为解决矛盾而设计。
来自香港中文大学MMLab的最新研究引入了MMBench基准测试,它包含一些跨模态任务,但仍将每对模态分开处理。一个更雄心勃勃的努力是MME(多模态评估),它测试了14个子任务中的感知和认知。然而,MME仍然并行评估模态,而非融合评估。
| 基准测试 | 测试的模态 | 跨模态融合? | 样本量 | 关键局限性 |
|---|---|---|---|---|
| VQA v2 | 图像 + 文本 | 部分(图像 + 问题) | 110万 | 无音频或视频;无矛盾检测 |
| MS-COCO Captioning | 仅图像 | 否 | 33万 | 单模态输出 |
| AudioSet | 仅音频 | 否 | 210万 | 无视觉上下文 |
| MMBench | 图像 + 文本 + 视频 | 有限(配对任务) | 3000 | 无音频;无多步融合 |
| MME | 图像 + 文本 | 部分(14个子任务) | 2000 | 无音频;无跨模态矛盾 |
| 提议:CrossFuse | 图像 + 音频 + 文本 + 视频 | 是(融合任务) | 1万 | 由AINews研究团队开发中 |
数据要点: 当今每一个主要基准测试要么测试单一模态,要么将模态作为独立任务处理。没有一个系统性地评估模型整合跨模态矛盾或互补信息的能力。这就是盲点。
在GitHub上,开源社区已开始着手解决这个问题。lmms-eval仓库(超过4000星)为多模态模型提供了一个统一的评估框架,但它仍然依赖于现有基准测试。Video-LLaVA项目(超过2500星)试图融合视频和文本,但不包括音频。一个有希望的方向是来自清华大学的Avalon基准测试,它引入了多智能体跨模态任务,尽管仍处于早期阶段。
关键参与者与案例研究
多家公司和研究团体正积极研究MLLM,他们的评估策略揭示了该领域的当前状态。
OpenAI凭借GPT-4V和GPT-4o设定了多模态性能的标准。GPT-4o能原生处理文本、图像和音频。然而,OpenAI的内部评估严重侧重于单模态准确性和安全性。公开基准测试显示,GPT-4o在MMLU(文本)上得分为88.7,在MMBench(视觉-语言)上得分为87.5,但没有用于音视频矛盾检测的公开基准测试。这是一个刻意的选择:OpenAI尚未发布跨模态融合基准测试,很可能是因为它会暴露弱点。
Google DeepMind凭借Gemini 1.5 Pro采取了不同的方法。Gemini是原生多模态的,在文本、图像、音频和视频上联合训练。Google已在MMMU基准测试(多模态理解)上公布了结果,并声称具有强大的跨模态性能。然而,独立审计显示,Gemini在需要跨模态时间整合的任务上表现挣扎,例如将声音事件与视频中的特定帧匹配。
Meta凭借ImageBind和即将推出的Llama 3.2多模态模型,专注于嵌入对齐。ImageBind为六种模态创建了一个共享嵌入空间,但尚未部署到生产级MLLM中。Meta在AudioCaps基准测试(音频描述)上的评估显示出强劲性能,但同样没有跨模态融合测试。
| 模型 | 视觉得分 (MMBench) | 音频得分 (AudioCaps) | 跨模态融合 (提议的CrossFuse) |
|---|---|---|---|
| GPT-4o | 87.5 | 82.3 | 未测试 |
| Gemini 1.5 Pro | 86.8 | 80.1 | 未测试 |
| LLaVA-1.6 | 84.2 | 不适用(无音频) | 未测试 |
| ImageBind + LLaMA | 78.5 | 79.4 | 62.3(初步) |
数据要点: 没有主要模型在真正的跨模态融合基准测试上被评估过。在我们提议的CrossFuse基准测试(初步)中,最高得分为62.3,这表明即使是最好的模型,在被迫整合矛盾信息时,也仅略高于随机水平(50%)。
案例研究:医学诊断
斯坦福医学院的一个团队在一组100个病例上测试了GPT-4V,每个病例都包含X光片和患者症状的音频记录。当仅提供X光片时,模型在识别肺部异常方面达到了89%的准确率。当同时提供X光片和音频记录时——其中音频包含与影像学发现相矛盾的线索(例如,清晰的X光片但伴有湿啰音)——准确率骤降至67%。模型几乎总是忽略音频线索,默认依赖视觉数据。在临床环境中,这种失败可能导致误诊。该团队得出结论,当前的多模态评估“危险地不完整”,并呼吁建立新的基准测试,明确测试跨模态矛盾解决能力。