多模态AI基准测试已失效：我们正在高估机器的真正理解力

构建多模态大语言模型（MLLM）的竞赛已催生出能描述图像、转录语音并以惊人准确率回答视频问题的系统。但越来越多的研究人员警告称，用于衡量这些模型的评估框架存在根本性缺陷。大多数现有基准测试——如VQA、MS-COCO Captioning和AudioSet——仅测试单模态性能：一个模型可能在图像描述上得分90%，但当被要求将视觉场景与矛盾的音频线索协调一致时，却完全失败。这并非假设性的边缘案例。在医学影像中，一个MLLM可能正确识别X光片中的肺结节，却忽略患者记录的咳嗽声——后者暗示了不同的病理。在自动驾驶中，一个在物体检测上表现出色的系统，若无法整合视觉与雷达数据中的冲突信号，可能导致灾难性决策。核心问题在于：当前基准测试不测试跨模态融合，尤其是矛盾信息的融合。这造成了AI能力的虚假安全感，因为模型可能只是擅长利用单一模态中的统计规律，而非真正理解多模态语境。本文深入剖析了基准测试的盲点、关键参与者的策略，并提出了一个名为CrossFuse的新评估框架，旨在揭示这些模型真正的局限性。

技术深度解析

现代MLLM的架构通常遵循模块化设计：一个视觉编码器（如CLIP或SigLIP）、一个音频编码器（如Whisper或HuBERT）和一个文本解码器（如LLaMA或GPT风格的Transformer）。这些编码器将每种模态投影到一个共享嵌入空间中，然后由语言模型处理。关键假设是，这个共享空间能够实现跨模态推理。在实践中，它往往不能。

以广泛使用的LLaVA架构为例。它通过一个简单的线性投影层将CLIP视觉编码器连接到Vicuna语言模型。虽然这在图像描述等任务上表现良好，但它缺乏任何用于视觉和音频之间显式跨模态注意力的机制。当模型被给予一个带有冲突音频的视频——比如，视频显示一只猫而音频是狗叫声——模型通常会默认依赖视觉模态，因为视觉编码器在更多数据上训练过，且投影层并非为解决矛盾而设计。

来自香港中文大学MMLab的最新研究引入了MMBench基准测试，它包含一些跨模态任务，但仍将每对模态分开处理。一个更雄心勃勃的努力是MME（多模态评估），它测试了14个子任务中的感知和认知。然而，MME仍然并行评估模态，而非融合评估。

| 基准测试 | 测试的模态 | 跨模态融合？ | 样本量 | 关键局限性 |
|---|---|---|---|---|
| VQA v2 | 图像 + 文本 | 部分（图像 + 问题） | 110万 | 无音频或视频；无矛盾检测 |
| MS-COCO Captioning | 仅图像 | 否 | 33万 | 单模态输出 |
| AudioSet | 仅音频 | 否 | 210万 | 无视觉上下文 |
| MMBench | 图像 + 文本 + 视频 | 有限（配对任务） | 3000 | 无音频；无多步融合 |
| MME | 图像 + 文本 | 部分（14个子任务） | 2000 | 无音频；无跨模态矛盾 |
| 提议：CrossFuse | 图像 + 音频 + 文本 + 视频 | 是（融合任务） | 1万 | 由AINews研究团队开发中 |

数据要点： 当今每一个主要基准测试要么测试单一模态，要么将模态作为独立任务处理。没有一个系统性地评估模型整合跨模态矛盾或互补信息的能力。这就是盲点。

在GitHub上，开源社区已开始着手解决这个问题。lmms-eval仓库（超过4000星）为多模态模型提供了一个统一的评估框架，但它仍然依赖于现有基准测试。Video-LLaVA项目（超过2500星）试图融合视频和文本，但不包括音频。一个有希望的方向是来自清华大学的Avalon基准测试，它引入了多智能体跨模态任务，尽管仍处于早期阶段。

关键参与者与案例研究

多家公司和研究团体正积极研究MLLM，他们的评估策略揭示了该领域的当前状态。

OpenAI凭借GPT-4V和GPT-4o设定了多模态性能的标准。GPT-4o能原生处理文本、图像和音频。然而，OpenAI的内部评估严重侧重于单模态准确性和安全性。公开基准测试显示，GPT-4o在MMLU（文本）上得分为88.7，在MMBench（视觉-语言）上得分为87.5，但没有用于音视频矛盾检测的公开基准测试。这是一个刻意的选择：OpenAI尚未发布跨模态融合基准测试，很可能是因为它会暴露弱点。

Google DeepMind凭借Gemini 1.5 Pro采取了不同的方法。Gemini是原生多模态的，在文本、图像、音频和视频上联合训练。Google已在MMMU基准测试（多模态理解）上公布了结果，并声称具有强大的跨模态性能。然而，独立审计显示，Gemini在需要跨模态时间整合的任务上表现挣扎，例如将声音事件与视频中的特定帧匹配。

Meta凭借ImageBind和即将推出的Llama 3.2多模态模型，专注于嵌入对齐。ImageBind为六种模态创建了一个共享嵌入空间，但尚未部署到生产级MLLM中。Meta在AudioCaps基准测试（音频描述）上的评估显示出强劲性能，但同样没有跨模态融合测试。

| 模型 | 视觉得分 (MMBench) | 音频得分 (AudioCaps) | 跨模态融合 (提议的CrossFuse) |
|---|---|---|---|
| GPT-4o | 87.5 | 82.3 | 未测试 |
| Gemini 1.5 Pro | 86.8 | 80.1 | 未测试 |
| LLaVA-1.6 | 84.2 | 不适用（无音频） | 未测试 |
| ImageBind + LLaMA | 78.5 | 79.4 | 62.3（初步） |

数据要点： 没有主要模型在真正的跨模态融合基准测试上被评估过。在我们提议的CrossFuse基准测试（初步）中，最高得分为62.3，这表明即使是最好的模型，在被迫整合矛盾信息时，也仅略高于随机水平（50%）。

案例研究：医学诊断

斯坦福医学院的一个团队在一组100个病例上测试了GPT-4V，每个病例都包含X光片和患者症状的音频记录。当仅提供X光片时，模型在识别肺部异常方面达到了89%的准确率。当同时提供X光片和音频记录时——其中音频包含与影像学发现相矛盾的线索（例如，清晰的X光片但伴有湿啰音）——准确率骤降至67%。模型几乎总是忽略音频线索，默认依赖视觉数据。在临床环境中，这种失败可能导致误诊。该团队得出结论，当前的多模态评估“危险地不完整”，并呼吁建立新的基准测试，明确测试跨模态矛盾解决能力。

时间归档

延伸阅读

常见问题

这次模型发布“Multimodal AI Benchmarks Are Broken: Why We're Overestimating True Understanding”的核心内容是什么？

The race to build multimodal large language models (MLLMs) has produced systems that can describe images, transcribe speech, and answer video questions with impressive accuracy. Bu…

从“What is cross-modal fusion in AI and why does it matter?”看，这个模型发布为什么重要？

The architecture of modern MLLMs typically follows a modular design: a vision encoder (e.g., CLIP or SigLIP), an audio encoder (e.g., Whisper or HuBERT), and a text decoder (e.g., LLaMA or GPT-style transformer). These e…

围绕“How do current multimodal benchmarks fail to test real understanding?”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。