技术深度解析
核心创新在于从图像的离散、有损表示转向连续、语义丰富的嵌入。传统RAG系统将图像视为二等公民:要么通过OCR(如Tesseract、EasyOCR)提取文本并索引,要么依赖人工整理的标签和标题。这两种方法都丢弃了绝大多数视觉信息——元素的排列方式、物体的相对大小、图表中的视觉流向。
新范式采用多模态嵌入管道,通常包含三个阶段:
1. 视觉编码器:一个大型视觉语言模型(如SigLIP、CLIP或微调的ViT)处理图像并生成密集特征图。与输出单一全局向量的旧模型不同,这些编码器通过输出网格状的补丁级嵌入来保留空间结构。
2. 空间-语义融合:这是关键步骤。补丁级嵌入通过一个轻量级Transformer或图神经网络,建模区域之间的关系。例如,它学习到图表中向下倾斜的线条与y轴上的“成本”标签以及x轴上的“Q3”标签在语义上相关。这通常通过交叉注意力机制实现,将视觉补丁与任何可用的文本令牌(来自OCR或标题)对齐。
3. 密集向量索引:融合后的表示通过注意力加权平均或学习查询向量等池化策略,压缩成单个高维向量(通常为768或1024维)。该向量与元数据一起存储在向量数据库(如Milvus、Pinecone、Qdrant)中。
推动这一进展的关键开源仓库:
- ColPali(GitHub: `illuin-tech/colpali`):一个开创性模型,使用后期交互机制直接索引视觉文档。ColPali不提取文本,而是将每一页编码为一组补丁级嵌入,并通过将查询嵌入与这些补丁匹配来执行检索。该项目已获得超过3000颗星,并在视觉文档检索基准(ViDoRe)上展示了最先进的结果。
- Byaldi(GitHub: `AnswerDotAI/byaldi`):一个围绕ColPali构建的用户友好型封装,简化了RAG管道的部署。它提供了一个`RAG`类,只需几行代码即可处理索引和检索。该项目正获得关注,已有超过1500颗星。
- VisRAG(GitHub: `openbmb/VisRAG`):一个完整的管道,将基于视觉语言模型的文档解析与检索和生成相结合。它使用多模态检索器找到相关页面,并使用多模态生成器生成答案。最近在MMMU视觉问答基准上取得了最高分。
基准性能:
| 模型 | ViDoRe Recall@5 | MMMU(视觉问答) | 索引速度(页/秒) | 每100万页存储量 |
|---|---|---|---|---|
| 传统OCR + 文本嵌入 | 52.3% | 42.1% | 120 | 12 GB(仅文本) |
| 基于CLIP(全局嵌入) | 68.7% | 55.8% | 95 | 8 GB |
| ColPali(后期交互) | 89.1% | 72.4% | 45 | 24 GB(补丁级) |
| VisRAG(完整管道) | 91.5% | 78.6% | 30 | 32 GB |
数据要点: 新的多模态方法在检索准确率上比基于OCR的方法实现了30-40%的绝对提升,但代价是索引速度更慢和存储需求显著增加。对于准确性至关重要的企业用例(如医学影像、法律文档审查),这种权衡是可以接受的。对于高吞吐量、低延迟的应用,结合快速OCR与选择性多模态索引的混合方法正在兴起。
关键参与者与案例研究
多家公司和研究团队正竞相将这项技术商业化:
- Jina AI:其`jina-clip-v2`模型是一个强有力的竞争者,在ViDoRe上达到85%,同时保持了紧凑的规模(3亿参数)。他们提供面向多模态RAG的托管API,瞄准电子商务和产品目录搜索。
- Vectara:该公司已将多模态索引集成到其RAG即服务平台中。其内部基准测试显示,在技术手册中搜索图表时,与纯文本索引相比,假阴性率降低了40%。
- Microsoft:通过Azure AI Search,微软增加了使用Florence-2为图像创建嵌入的“视觉向量化”功能。早期采用者包括使用该功能索引CAD图纸的工程公司。
- Pixeltable(YC孵化):一家初创公司,正在构建一个原生支持具有空间-语义融合的图像索引的多模态数据平台。他们声称在建筑蓝图上的召回率提高了3倍。
案例研究:西门子能源
西门子能源部署了一个多模态RAG系统,用于索引50万张燃气轮机的技术图表和维护手册。通过使用基于ColPali的管道,他们将查找特定接线图的时间从平均45分钟缩短到不到10秒。