多模态AI如何解码你的截图：Claude与ChatGPT背后的技术交响曲

将截图粘贴进Claude或ChatGPT这样的大语言模型，看似简单的操作，实则是一次深刻的技术飞跃。AINews的分析显示，现代多模态模型并非仅仅对图像执行光学字符识别（OCR）。相反，它们采用了一套精密的流水线：视觉编码器（通常是Vision Transformer）将截图分解为视觉令牌，然后通过一个学习得到的投影层将这些令牌映射到模型的文本嵌入空间。这使得模型不仅能处理文本内容，还能理解空间布局、视觉层次，甚至颜色传达的情感线索。当你询问一段代码片段时，模型会同时处理语法、错误高亮和周围的UI元素，从而获得远超传统OCR的理解深度。

技术深度解析

截图理解背后的魔法并非单一模型，而是一个由专门组件精心编排的系统。GPT-4V和Claude 3等模型采用的主流架构是“视觉编码器+语言模型”混合体。视觉编码器通常是Vision Transformer（ViT）或其变体，如SigLIP（Sigmoid Loss for Language-Image Pre-training）。

流水线步骤：
1. 图像预处理： 截图被调整大小并归一化。关键在于，宽高比通常被保留以维持空间关系。例如，一张1920x1080的截图可能会被缩小到384x216或类似尺寸，具体取决于模型的最大输入分辨率。
2. 视觉编码： 预处理后的图像被分割成网格状的图块（例如，每个图块16x16像素）。ViT通过多个Transformer层处理这些图块，输出一系列视觉嵌入。每个嵌入代表图像的一个区域。这与仅提取文本的OCR有本质区别。ViT捕捉的是截图的“完形”：按钮的位置、窗口的相对大小、错误信息的颜色。
3. 投影与对齐： 视觉嵌入存在于与文本嵌入不同的向量空间中。一个学习得到的“投影层”（通常是简单的线性层或小型MLP）将视觉令牌映射到语言模型的嵌入空间。这是关键的对齐步骤，通过在大量图像-文本对数据集上训练完成。模型学会将代表红色下划线单词的视觉令牌与代表“错误”或“拼写错误”的文本令牌对齐。
4. 多模态融合： 投影后的视觉令牌被前置到用户的文本令牌（关于截图的问题）之前。语言模型——一个Transformer解码器——随后处理这个组合序列，同时关注视觉和文本信息。这使得模型在生成回答时能够“查看”截图的相关部分。

这对截图理解为何重要：
这种架构解释了模型为何能理解复杂的UI布局。例如，如果你粘贴一张电子表格截图，模型可以识别哪个单元格包含公式、哪些单元格被高亮、以及列标题与数据之间的关系。它不仅仅是读取数字，而是理解二维信息结构。

值得探索的开源仓库：
- LLaVA（Large Language and Vision Assistant）： 一个流行的开源多模态模型。其GitHub仓库（lmms-lab/llava）拥有超过20,000颗星。它使用Vicuna语言模型和CLIP视觉编码器，并带有一个简单的投影层。这是理解该架构的绝佳起点。
- Qwen-VL： 阿里巴巴的开源多模态模型。其仓库（QwenLM/Qwen-VL）展示了一种更先进的方法，配备了更高分辨率的视觉编码器和处理多图像的机制。
- InternVL： 上海人工智能实验室推出的模型，突破了多模态理解的边界。其仓库（OpenGVLab/InternVL）展示了扩展视觉编码器如何能显著提升文档理解等任务的性能。

基准测试性能（截图理解）：

| 模型 | MMMU（多模态） | DocVQA（文档） | ChartQA（图表） |
|---|---|---|---|
| GPT-4V | 69.1 | 88.4 | 78.5 |
| Claude 3 Opus | 68.3 | 89.3 | 80.4 |
| Gemini Ultra | 69.4 | 88.1 | 79.0 |
| Qwen-VL-Max | 64.5 | 85.6 | 76.2 |
| LLaVA-1.6 | 56.8 | 78.2 | 68.5 |

数据要点： 专有模型（GPT-4V、Claude 3、Gemini）在理解复杂文档和图表方面领先，但Qwen-VL等开源模型正在缩小差距。DocVQA基准测试对于截图理解尤其相关，因为它测试了模型在视觉布局中提取和推理结构化文本的能力。

关键玩家与案例研究

掌握截图理解能力的竞赛由少数几家公司引领，每家公司都有独特的战略方法。

- OpenAI（GPT-4V / GPT-4o）： OpenAI的方法是将通用性最大化。GPT-4V几乎可以处理任何图像，从模糊的白板照片到高分辨率的UI原型。其优势在于训练数据的庞大规模以及底层GPT-4语言模型的推理能力。一个关键用例是编程：开发者粘贴显示错误UI或错误消息的截图，GPT-4V能识别问题并建议代码修复。
- Anthropic（Claude 3）： Anthropic专注于安全性和细微差别。Claude 3 Opus特别擅长理解截图背后的“意图”。例如，如果用户粘贴一张复杂表单的截图，Claude不仅能读取字段，还能推断用户的目标（例如，“你似乎正在填写一份税务表格。以下是每个字段的含义。”）。他们的“Constitutional AI”训练也使其在解释模糊的视觉信息时更加谨慎。

时间归档

延伸阅读

常见问题

这次模型发布“How Multimodal AI Decodes Your Screenshots: The Tech Behind Claude and ChatGPT”的核心内容是什么？

The seemingly simple act of pasting a screenshot into a large language model like Claude or ChatGPT is, in fact, a profound technological leap. AINews analysis reveals that modern…

从“how does claude 3 understand screenshots”看，这个模型发布为什么重要？

The magic behind screenshot understanding is not a single model but a carefully orchestrated system of specialized components. The dominant architecture, used by models like GPT-4V and Claude 3, is a 'visual encoder + la…

围绕“best multimodal model for document understanding 2024”，这次模型更新对开发者和企业有什么影响？

开发者通常会重点关注能力提升、API 兼容性、成本变化和新场景机会，企业则会更关心可替代性、接入门槛和商业化落地空间。