最新开源的解析效果非常好的PDF解析工具MinerU （pdf2md pdf2json）

2024-07-19 1460阅读

毫不夸张的说 PDF解析工具MinerU是照进RAG黑暗中的一道光——这是我对它的评价。我测过太多了文档解析工具！最近在做文档解析的工作。看了很多的开源的文档解析的工具，版面分析的工具，其中包括paddelpaddel这样30k+star的明星工具。但是效果都觉得不好。 MinerU是一个最近开源的文档解析工具，可以把PDF转成json结构，还可以转成md格式。可以解析得到其中的图片，表格，可以得到段落，可以得到标题，这是很哇塞的事情。因为最近RAG特别火热，这些都是RAG非常需要的。文档解析是非常重要的一个环节。可以看看这篇文章。 RAG的上限在哪里？边界在哪里？_rag的限制-CSDN博客虽然现在MinerUstar数量不高，1k star都不到，但是绝对会涨起来的。我们调研对比过很多开源的工具，效果都强差人意，这个是我看到的最满意的一个。甚至要比我们生产环境的都要好一些。MinerUstar 绝对是一个为RAG而创造的工具，开源世界的一道光。这篇文章会详细介绍它的解析效果，它的优势和不足。并且给出详细的安装教程。MinerU 在github上的安装教程太粗糙了。一堆问题。

环境介绍

windows10 环境

使用CPU运行

Magic-PDF简介

MinerU 是一款一站式、开源、高质量的数据提取工具，主要包含以下功能:

Magic-PDF PDF文档提取
Magic-Doc 网页与电子书提取

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

解析系效果总结

我觉得不妨先看看解析的效果，不着急折腾环境，先看看我列出来的缺点是否能接受。或者看看优点是不是自己想要的。再去安装它。

缺点

问题1：解析速度慢

这里使用的CPU跑的，6页大概两三分钟。解析走的纯模型，先版面分析，再ocr，再公式检测。

模型初始化耗时167s，之后每页大概是16s

问题2：表格解析成图片

把表格处理成了图片

原文件如下所示



解析结果如下所示



原文件如下



解析后的结果



问题3：标题识别不准确，且没有分层

原文件



解析后的结果



问题4:财报中的表格没有识别出来



优点

优点1：论文版面分析准确

表定位，图表定位准确。测了一篇论文，都正确。并且准确获取到了表格和图片的caption

支持多栏，解析顺序是正确的

优点2：混乱的杂志 + 多栏 + 图片

解析效果挺不错。一页多栏，顺序是对的。

优点3：多语言

测了中文和英文。都可以，github上的描述，支持176种语言

优点4：获取了表格和图片的caption

能够获取到caption并且单独存储了。

优点5：页眉页脚、脚注识别准确

转md的时候，都已经去掉了。

优点6：段落结构比较好

段落合并的好。得到的结果多数是自然段落

优点7：可以解析公式

优点8：多平台多环境支持

支持windows/linux/mac平台；支持cpu和gpu环境

安装MinerU

虚拟化环境

conda create -n MinerU python=3.10

conda activate MinerU

安装配置

pip install magic-pdf[full-cpu]

这一步最好有科学上网，不然可能拉不到。

pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/

下载模型

模型，这里是模型没有下载，会报错如下



这里为了方便，使用git来从魔搭上拉取
```
git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
```
如果想要使用其它的方式拉取，参考

MinerU/docs/how_to_download_models_zh_cn.md at master · opendatalab/MinerU · GitHub

修改配置文件

在仓库根目录可以获得 MinerU/magic-pdf.template.json at master · opendatalab/MinerU · GitHub 文件

这里解释一下这个命令，实际上是把配置文件发在了c盘的user目录下。

cp magic-pdf.template.json ~/magic-pdf.json

修改配置文件的内容，如下图所示。 output-dir是解析后的文件结果存放的目录。 models-dir是下载的模型的地址。

如果还是不知道放在哪里，可以先启动一下，会报一个错误，找不到配置文件

magic-pdf pdf-command --pdf "page1.pdf" 注意这里替换成自己文件

根据报错，把上述的配置文件放过去就可以。

接下来测试解析效果

magic-pdf pdf-command --pdf "困难pdf节选西藏奇正2022.pdf" --inside_model true

正常解析



解析后得到的结果

包含了md结构，json结构，和版面分析的结果



md

layout

VPS购买请点击我

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

最新开源的解析效果非常好的PDF解析工具MinerU （pdf2md pdf2json）

环境介绍

Magic-PDF简介

解析系效果总结

缺点

问题1：解析速度慢

问题2：表格解析成图片

问题3：标题识别不准确，且没有分层

问题4:财报中的表格没有识别出来

优点

优点1：论文版面分析准确

优点2：混乱的杂志 + 多栏 + 图片

优点3：多语言

优点4：获取了表格和图片的caption

优点5：页眉页脚、脚注识别准确

优点6：段落结构比较好

优点7：可以解析公式

优点8：多平台多环境支持

安装MinerU

虚拟化环境

安装配置

下载模型

修改配置文件

接下来测试解析效果

正常解析

解析后得到的结果

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]

环境介绍

Magic-PDF简介

解析系效果总结

缺点

问题1： 解析速度慢

问题2：表格解析成图片

问题3：标题识别不准确，且没有分层

问题4:财报中的表格没有识别出来

优点

优点1：论文版面分析准确

优点2：混乱的杂志 + 多栏 + 图片

优点3：多语言

优点4：获取了表格和图片的caption

优点5：页眉页脚、脚注识别准确

优点6：段落结构比较好

优点7：可以解析公式

优点8：多平台多环境支持

安装MinerU

虚拟化环境

安装配置

下载模型

修改配置文件

接下来测试解析效果

正常解析

解析后得到的结果

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]

问题1：解析速度慢