MinerU-Diffusion：扩散模型如何突破自回归局限，重塑文档OCR技术格局

2026年4月22日 09:34 AINews GitHub April 2026

⭐ 566📈 +193

来源：GitHub 归档：April 2026

文档OCR领域迎来范式变革。OpenDataLab团队推出的MinerU-Diffusion框架，采用基于扩散模型的并行块级解码技术，在保持高精度的同时，有望将长文档处理速度提升数个量级。这一技术突破或将重新定义企业级文档处理管道的性能基准。

OpenDataLab团队近日发布了名为MinerU-Diffusion的创新框架，该框架从根本上重新思考了光学字符识别（OCR）模型从文档图像生成文本的方式。与谷歌Document AI或微软LayoutLM等主流模型采用的顺序、逐令牌预测机制不同，MinerU-Diffusion运用扩散过程并行生成文本块。这一架构转变直指处理长文档时的核心瓶颈——自回归解码固有的O(n)顺序依赖性——将其替换为每个块更易并行化的O(1)生成步骤。其核心创新在于将文本识别视为一个条件式的图像到文本生成问题，其中“图像”是文档片段的潜在表征。模型通过视觉编码器提取文档特征，分割为对应段落、表格单元格等逻辑单元的非重叠块，再以扩散过程并行生成各块文本。这不仅挑战了行业对自回归模型的长期依赖，也为处理结构复杂、篇幅冗长的文档提供了全新的技术路径，预示着企业文档处理流程可能迎来效率革命。

技术深度解析

MinerU-Diffusion的架构是对主导文档理解领域的编码器-解码器Transformer的刻意背离。该系统可分解为三个核心组件：视觉编码器、基于扩散的文本生成器，以及新颖的块对齐与融合模块。

首先，视觉Transformer（ViT）或CNN骨干网络（如ResNet）处理文档图像，生成空间特征图。关键在于，该特征图随后被分割成非重叠的*块*，对应段落、表格单元格或标题区域等逻辑单元。每个块的视觉特征将作为扩散过程的条件信号。

其次，也是最创新的部分，是扩散文本生成器。该模块并非预测下一个令牌的概率分布，而是训练用于逆转应用于文本的扩散过程。在前向过程中，一个块的真实文本被转换为连续嵌入，并逐步添加高斯噪声进行破坏。模型学习根据带噪声的版本和视觉条件，预测原始、未破坏的嵌入。在推理时，模型从每个块的纯噪声开始，在视觉特征的引导下迭代去噪，直至生成干净的文本嵌入。该嵌入随后被解码为字符序列。由于在给定条件下，每个块的扩散过程是独立的，因此所有块可以并行去噪。

第三部分处理真实文档的复杂性。块级生成的结果必须重新组装成连贯的文档流，并尊重可能非线性的阅读顺序（例如多栏布局）。一个轻量级Transformer或基于规则的后处理器执行这种布局感知的融合。

训练过程结合了多种损失函数：标准的扩散损失（对预测噪声的均方误差）以及可能对最终解码序列采用的交叉熵或连接主义时序分类（CTC）损失，以确保文本保真度。该框架基于PyTorch构建，并可能利用Hugging Face的`diffusers`库作为核心扩散调度器。

来自代码库及相关论文的基准数据展示了引人注目的性能。其核心权衡在于完美的顺序连贯性与大规模并行性之间。

| 模型范式 | 解码机制 | 理论复杂度（n个令牌） | 核心优势 | 主要弱点 |
|---|---|---|---|---|
| 自回归（如Donut、Pix2Struct） | 顺序逐令牌生成 | O(n) | 出色的上下文连贯性，擅长处理长程依赖。 | 处理长文档速度慢，无法并行化生成。 |
| 非自回归（NAR） | 并行令牌预测 | O(1) | 推理速度极快。 | 存在“令牌重复”和连贯性问题，准确率较低。 |
| 扩散（MinerU-Diffusion） | 并行块去噪 | 每块O(1) | 在块级别实现了速度与连贯性的良好平衡，天然多模态。 | 块融合复杂度高，可能存在块间不一致性。 |
| 仅编码器（如TrOCR） | 对每个位置在固定词汇表上分类 | O(1) | 快速、简单。 | 需要明确的字符定位/分割，处理变长文本困难。 |

数据启示： 上表揭示了MinerU-Diffusion的战略定位。它通过在中间*块*粒度上操作，避免了自回归模型的顺序瓶颈和朴素非自回归模型的令牌级不连贯问题。这使得其性能高度依赖于块分割和融合的质量。

关键参与者与案例研究

文档OCR与理解领域由提供垂直整合云AI服务的大型科技公司主导。谷歌的Document AI可以说是市场领导者，为各种文档类型（发票、合同、表单）提供预训练模型。其底层技术虽未完全公开，但基于以自回归方式训练的大型多模态Transformer。类似地，微软的Azure AI Document Intelligence（由LayoutLMv3等模型驱动）结合了布局感知预训练和微调，同样依赖自回归解码进行文本生成。亚马逊的Textract历史上更多使用传统OCR结合ML进行结构分析，但正日益采用深度学习方法。

在开源和研究领域，几个关键项目已为此铺平道路。Clova AI Research的Donut（Document Understanding Transformer）证明了编码器-解码器Transformer无需OCR特定预处理即可端到端执行OCR和理解任务。谷歌研究的Pix2Struct通过直接在渲染的网页上训练以更好地理解布局，推进了此项工作。Mindee的docTR库提供了一个结合检测与识别的生产级管道。值得注意的是，

时间归档

常见问题

GitHub 热点“MinerU-Diffusion: How Diffusion Models Are Revolutionizing Document OCR Beyond Autoregressive Limits”主要讲了什么？

The OpenDataLab team has released MinerU-Diffusion, a framework that fundamentally rethinks how optical character recognition (OCR) models generate text from document images. Inste…

这个 GitHub 项目在“MinerU-Diffusion vs Donut OCR performance benchmark”上为什么会引发关注？

MinerU-Diffusion's architecture is a deliberate departure from encoder-decoder transformers that have dominated document understanding. The system can be broken down into three core components: a visual encoder, a diffus…

从“how to fine-tune MinerU-Diffusion for invoice processing”看，这个 GitHub 项目的热度表现如何？

当前相关 GitHub 项目总星标约为 566，近一日增长约为 193，这说明它在开源社区具有较强讨论度和扩散能力。

MinerU-Diffusion：扩散模型如何突破自回归局限，重塑文档OCR技术格局

技术深度解析

关键参与者与案例研究

更多来自 GitHub

时间归档

延伸阅读

常见问题