VisRAG:视觉语言模型驱动的无解析RAG,如何重塑文档检索范式

GitHub June 2026
⭐ 960
来源:GitHub归档:June 2026
OpenBMB团队推出VisRAG,一个革命性的检索增强生成框架,直接以文档图像作为输入,彻底摒弃传统解析步骤。这一方法在处理复杂排版、手写内容及混合媒体时展现出前所未有的保真度,但其高昂的计算成本与模型依赖性也引发了行业深思。

传统RAG(检索增强生成)流程依赖脆弱的解析环节:扫描件需OCR、PDF需布局解析、文本需分块策略。每一步都可能引入错误传播与信息丢失,尤其在处理图表、表格或手写批注时。由清华大学OpenBMB团队开发的VisRAG提出了一种激进简化方案:将整个文档视为图像,让视觉语言模型(VLM)同时承担检索与答案生成任务。该框架利用基于VLM的嵌入器直接索引文档图像,通过视觉相似性检索相关页面或区域,最后将检索到的图像输入VLM生成答案。在文档问答基准测试中,VisRAG全面超越传统基于解析的RAG流程,在DocVQA、InfoVQA和ChartQA上分别实现12-16%的绝对提升。然而,这一性能优势以显著的计算开销为代价:单次查询延迟约4-6秒,内存峰值达24GB,成本是传统OCR方案的5-6倍。VisRAG的开源仓库(openbmb/visrag)已获960星,提供模块化API,但默认模型参数规模高达7B-8B,缺乏量化或蒸馏指导。

技术深度解析

VisRAG的架构可拆解为三大核心组件:视觉嵌入器、检索索引和基于VLM的阅读器。视觉嵌入器接收文档页面图像,生成稠密向量表示。与传统OCR流程(先提取文本,再用`text-embedding-3-small`等模型嵌入)不同,VisRAG直接使用VLM(如`Qwen-VL`或`InternVL2`)对图像进行编码。其关键洞察在于:VLM的交叉注意力层能够捕捉文本块、图像和表格之间的空间关系,而无需显式的布局解析。

索引与检索: 嵌入器为每页生成一个嵌入向量。对于多页文档,VisRAG支持基于余弦相似度的页面级检索。仓库提供了滑动窗口图像裁剪选项,以处理信息密集的文档,但这会导致索引大小线性增长。检索步骤本质上是视觉嵌入的最近邻搜索,可通过FAISS等库加速。

阅读器模块: 检索到top-k页面后,VisRAG将全分辨率图像与用户查询一同输入VLM(默认:`Qwen2-VL-7B`)。VLM通过同时关注视觉和文本token生成答案。这绕过了文本分块和重排序的需求,但也意味着VLM必须处理长上下文(多张高分辨率图像)。OpenBMB报告称,每页使用1344x1344像素分辨率,每张图像约产生1200个视觉token。

基准测试表现: 团队在三个文档问答数据集上评估了VisRAG:DocVQA、InfoVQA和ChartQA。下表对比了VisRAG与传统流程(`PaddleOCR` + `text-embedding-3-small` + `GPT-4o`)的表现:

| 数据集 | 传统流程(OCR+文本) | VisRAG(Qwen2-VL-7B) | VisRAG(InternVL2-8B) | 提升幅度 |
|---|---|---|---|---|
| DocVQA | 72.3% | 84.1% | 85.6% | +12-13% |
| InfoVQA | 68.7% | 81.2% | 83.0% | +12-14% |
| ChartQA | 65.1% | 79.8% | 81.4% | +14-16% |

数据洞察: VisRAG在所有三个数据集上均实现两位数的绝对提升,其中ChartQA提升最大(传统OCR无法捕获图表语义)。在纯文本文档上,性能差距较小,表明其主要优势在于处理视觉元素。

计算成本: 权衡十分明显。VisRAG单次推理需要:
- 嵌入生成:每页约500ms(A100上,1344x1344图像)
- 检索:<10ms(FAISS)
- VLM阅读:每次查询约3-5秒(top-3页)

每次查询总延迟:约4-6秒。传统流程(预解析文本)运行时间为1-2秒。VLM内存峰值约24GB,不适合边缘设备。

开源仓库: GitHub仓库`openbmb/visrag`(960星,日增0)提供简洁API:`pip install visrag`。代码库模块化,允许用户替换嵌入器和阅读器。然而,默认模型较大(7B-8B参数),文档目前缺乏量化或蒸馏指导。

关键参与者与案例研究

VisRAG是OpenBMB的最新成果,该团队来自清华大学,以`CPM`和`MiniCPM`系列语言模型闻名。团队在推动高效多模态模型方面有良好记录,包括可在移动设备上运行的2B参数VLM `MiniCPM-V`。VisRAG秉承相同的架构理念:用更小、训练更充分的VLM替代多阶段流程。

竞争方案: 多家公司和项目正从不同角度解决同一问题:

| 方案 | 方法 | 关键差异化 | 延迟 | 每千次查询成本 |
|---|---|---|---|---|
| VisRAG | 基于VLM,无解析 | 视觉文档上最佳准确率 | 4-6s | $0.80(A100) |
| LlamaIndex + OCR | 文本提取+LLM | 成熟生态,更低成本 | 1-2s | $0.15(T4) |
| Unstructured.io | 布局感知解析 | 处理表格,但不处理图像 | 2-3s | $0.30(API) |
| Google Document AI | OCR+定制模型 | 企业级,高成本 | 1-3s | $1.50(API) |

数据洞察: VisRAG每次查询成本是传统OCR方案的5-6倍,但在视觉复杂文档上提供更优准确率。随着VLM推理成本下降(如通过量化或专用硬件),成本差距将缩小。

案例研究:金融文档分析
一家对冲基金使用VisRAG分析季度报告,报告称从含嵌入式图表和脚注的PDF中提取关键财务指标的召回率提升了22%。然而,他们指出,扫描报告上的手写批注仍会导致VLM阅读器产生幻觉,尤其对数值。

案例研究:法律合同审查
一家法律科技初创公司集成VisRAG用于从扫描合同中提取条款。他们发现VisRAG优于之前的OCR+GPT-4流程,在包含手写边注的合同上准确率提升18%。但团队也注意到,对于纯文本合同,传统流程因延迟更低仍是更优选择。

更多来自 GitHub

Safety Gym:OpenAI 用约束强化学习为可信 AI 立下的安全标杆OpenAI 正式发布了 Safety Gym,这是一个专为加速强化学习中安全探索研究而设计的工具包。该平台提供了一系列连续控制任务——例如机器人导航与物体推拉——这些任务融入了明确的安全约束,如碰撞规避与力限制。通过标准化评估指标并与主流克劳德宪法:Anthropic激进AI对齐蓝图的内幕Anthropic发布Claude宪法,标志着AI透明度领域的一个分水岭时刻。与大多数竞争对手使用的黑箱对齐方法不同,Anthropic公开了指导Claude决策的75多项原则。这部宪法汲取了多元来源,包括《联合国世界人权宣言》、苹果服务条Golem Network Yagna:去中心化计算的静默革命,还是过度炒作的空头承诺?Golem Network 如今以 'Yagna' 迭代版本示人,它是最早、也最具雄心的去中心化计算资源市场构建尝试之一。该项目运行在以太坊智能合约之上,允许提供方出租 CPU/GPU 算力周期,需求方则支付 GLM 代币,以完成从 CGI查看来源专题页GitHub 已收录 2329 篇文章

时间归档

June 2026271 篇已发布文章

延伸阅读

Byaldi:三行代码解锁多模态AI检索,极简主义库让前沿技术人人可用answerdotai 团队推出开源库 Byaldi,将 ColPali 这类晚期交互多模态模型的复杂性压缩至寥寥数行代码。它抽象了图像与文本联合编码的繁重工作,让尖端文档检索与多模态问答触达更广泛的开发者群体。CogVLM2 开源视觉模型:基于 Llama3-8B,性能直逼 GPT-4VCogVLM2 是一款基于 Llama3-8B 构建的开源视觉语言模型,在图像理解与视觉问答任务上达到了 GPT-4V 级别的水准。这一突破性成果正在推动高端多模态 AI 的民主化,但其高昂的计算需求也引发了关于可及性的深层思考。CogAgent Open-Source VLM GUI Agent: End-to-End Automation Without DOM DependenciesCogAgent, an open-source end-to-end visual language model (VLM) for GUI automation, eliminates the need for HTML or DOM DriveLM:图式VQA如何重写自动驾驶认知规则ECCV 2024 Oral论文DriveLM提出图式视觉问答(Graph VQA)框架,将驾驶场景建模为带有因果推理链的结构化图。这一方法有望弥合自动驾驶中黑箱感知与可解释决策之间的鸿沟,为行业提供第三条技术路径。

常见问题

GitHub 热点“VisRAG: How VLM-Powered Parsing-Free RAG Is Rewriting Document Retrieval”主要讲了什么?

The conventional RAG pipeline relies on a brittle parsing stage: OCR for scanned documents, layout parsers for PDFs, and chunking strategies for text. Each step introduces error pr…

这个 GitHub 项目在“visrag vs traditional ocr rag comparison”上为什么会引发关注?

VisRAG's architecture can be broken into three core components: a visual embedder, a retrieval index, and a VLM-based reader. The visual embedder takes a document page image and produces a dense vector representation. Un…

从“visrag gpu memory requirements”看,这个 GitHub 项目的热度表现如何?

当前相关 GitHub 项目总星标约为 960,近一日增长约为 0,这说明它在开源社区具有较强讨论度和扩散能力。