当前位置：首页 > article >正文

LLMs之PDF：MinerU(将PDF文件转换成Markdown和JSON格式)的简介、安装和使用方法、案例应用之详细攻略

article 2025/3/1 7:10:47

MinerU的简介

0、日志

1、MinerU 的主要特点

2、已知问题

MinerU 安装和使用方法

1、MinerU的三种体验方式

T1、在线演示

T2、快速CPU演示

T3、GPU 使用

2、命令行使用

3、Python API 使用

MinerU的案例应用

科学文献处理

数据预处理

知识图谱构建

文档摘要

其他文本挖掘任务

MinerU的简介

2024年7月5日，MinerU是一个高质量的开源工具，用于将PDF文件转换成Markdown和JSON格式。它提供了一站式解决方案，能够高精度地提取PDF文档中的各种信息。

MinerU 项目诞生于InternLM的预训练过程中，旨在解决科学文献中的符号转换问题，并为大模型时代的技术发展做出贡献。它致力于提供高质量的PDF内容提取，目标是将PDF转换为机器可读的格式，例如Markdown和JSON，方便后续处理和应用。与商业产品相比，MinerU 仍在发展中，如果遇到问题或结果不理想，建议在GitHub issue中提交问题并附上相关的PDF文件。

MinerU是一个功能强大且易于使用的PDF转换工具，它能够高效地将PDF转换为Markdown和JSON格式，并支持多种高级功能，例如公式识别、表格识别和OCR。虽然还存在一些已知问题，但其不断更新迭代，并积极吸纳社区反馈，未来有望成为一个更加完善和强大的PDF处理工具。

GitHub地址：GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

0、日志

2024年11月22日发布0.10.0版本。引入了混合OCR文本提取功能，显著提高了在复杂文本分布场景（如密集公式、不规则跨度区域和图像表示的文本）中的解析性能。结合了文本模式中准确内容提取和更快速度的优势，以及在OCR模式中更精确的跨度/行区域识别。
2024年11月15日发布0.9.3版本。集成了RapidTable进行表格识别，将单表格解析速度提高了10倍以上，同时准确性更高，GPU内存使用率更低。
2024年11月6日发布0.9.2版本。集成了StructTable-InternVL2-1B模型以实现表格识别功能。
2024年10月31日发布0.9.0版本。这是一个主要的新版本，进行了广泛的代码重构，解决了许多问题，提高了性能，降低了硬件要求，并增强了可用性：重构了排序模块代码，使用layoutreader进行阅读顺序排序，确保在各种布局中保持高准确性。重构了段落拼接模块，实现了跨列、跨页、跨图形和跨表格场景的良好效果。重构了列表和目录识别功能，显著提高了列表块和目录块的准确性，以及相应文本段落的解析。重构了图形、表格和描述文本的匹配逻辑，大大提高了将标题和脚注与图形和表格匹配的准确性，并将描述文本的丢失率降低到接近零。为OCR添加了多语言支持，支持检测和识别84种语言。支持的语言列表请参见OCR语言支持列表。添加了内存回收逻辑和其他内存优化措施，显著降低了内存使用。启用所有加速功能（不包括表格加速（布局/公式/OCR））的内存需求从16GB降低到8GB，启用所有加速功能的内存需求从24GB降低到10GB。优化了配置文件功能开关，添加了独立的公式检测开关，在不需要公式检测时可以显著提高速度和解析结果。集成了PDF-Extract-Kit 1.0：添加了自研的doclayout_yolo模型，与原始解决方案相比，处理速度提高了10倍以上，同时保持了类似的解析效果，并且可以通过配置文件与layoutlmv3自由切换。将公式解析升级到unimernet 0.2.1，提高了公式解析的准确性，同时显著降低了内存使用。由于PDF-Extract-Kit 1.0的仓库变更，您需要重新下载模型。请参阅如何下载模型以获取详细步骤。
2024年9月27日发布0.8.1版本，修复了一些错误，并提供了在线演示和前端界面的本地化部署版本。
2024年9月9日：发布0.8.0版本，支持使用Dockerfile快速部署，并在Huggingface和Modelscope上推出演示。
2024年8月30日：发布0.7.1版本，添加了paddle tablemaster表格识别选项
2024年8月9日：发布0.7.0b1版本，简化了安装过程，添加了表格识别功能
2024年8月1日：发布0.6.2b1版本，优化了依赖冲突问题和安装文档
2024年7月5日：首次开源发布

1、MinerU 的主要特点

去除页眉、页脚、脚注、页码等干扰信息；以人类可读的顺序输出文本，适应单列、多列和复杂布局；保留原始文档结构，包括标题、段落、列表等；提取图像、图像描述、表格、表格标题和脚注；自动识别并转换公式为LaTeX格式；自动识别并转换表格为HTML格式；自动检测扫描版PDF和乱码PDF并启用OCR功能；OCR支持84种语言的检测和识别；支持多种输出格式，例如多模态和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式；支持多种可视化结果，包括布局可视化和跨度可视化，方便确认输出质量；支持CPU和GPU环境；兼容Windows、Linux和Mac平台。

>> 高质量PDF提取工具：MinerU 是一款高质量的工具，能够将PDF文件转换成机器可读的格式，例如Markdown和JSON。这使得数据提取和进一步处理变得非常容易。

>> 多格式输出：支持多种输出格式，包括多模态和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式。

>> 结构化保留：能够保留原始文档的结构，包括标题、段落、列表等，保证语义连贯性。

>> 全面信息提取：不仅提取文本，还能够提取图像、图像描述、表格、表格标题和脚注等信息。

>> 公式和表格转换：自动识别并转换文档中的公式为LaTeX格式，表格为HTML格式。

>> OCR支持：自动检测扫描版PDF和乱码PDF，并启用OCR功能，支持84种语言的检测和识别。

>> 布局处理能力强：能够处理单列、多列和复杂布局的文档，并按人类可读的顺序输出文本。针对复杂的文本分布场景（如密集公式、不规则跨度区域和图像表示的文本）的解析性能也有显著提升。

>> 多种优化：进行了大量的代码重构，解决了诸多问题，提升了性能，降低了硬件要求，并增强了易用性。包括内存优化，支持多种模型选择，并针对公式检测、表格识别等功能提供了独立开关，方便用户根据需求调整。

>> 多种运行环境支持：支持CPU和GPU环境，兼容Windows、Linux和Mac平台。

>> 开源且持续更新：项目开源，并持续更新和维护，不断改进性能和功能。

2、已知问题

>> 复杂的布局可能会导致阅读顺序错误。

>> 不支持垂直文本。

>> 对一些不常见的列表格式识别可能存在问题。

>> 只支持一级标题。

>> 代码块目前不支持。

>> 漫画书、艺术画册、小学课本和练习题等类型的PDF解析效果可能较差。

>> 复杂的表格识别可能出现行/列识别错误。

>> 对于一些小众语言的PDF，OCR识别可能存在误差。

>> 部分公式在Markdown中可能无法正确渲染。

MinerU 安装和使用方法

1、MinerU的三种体验方式

在线演示（无需安装）、快速CPU演示（Windows、Linux、Mac）和GPU加速（需要CUDA环境）。

T1、在线演示

提供了稳定版和测试版两个版本，无需任何安装，可以直接在网页上进行测试。

T2、快速CPU演示

安装 magic-pdf：使用conda创建名为MinerU的Python 3.10虚拟环境，激活环境后，使用pip安装 magic-pdf[full] 包，并指定额外的索引URL（--extra-index-url https：//wheels.myhloli.com）。

下载模型权重文件：参考项目文档中的“如何下载模型文件”部分进行下载。

修改配置文件：脚本会自动生成 magic-pdf.json 文件，用户可以修改该文件中的配置来启用或禁用某些功能，例如表格识别。配置文件中包含对 layoutlmv3 和 doclayout_yolo 模型、公式识别和表格识别的配置选项，用户可以根据需要进行调整。

T3、GPU 使用

如果设备支持CUDA并满足GPU要求，可以使用GPU加速。项目提供了Ubuntu 22.04 LTS + GPU和Windows 10/11 + GPU的详细指南。也提供了使用Docker进行快速部署的方法，但需要至少8GB VRAM的GPU，所有加速功能默认启用。

2、命令行使用

MinerU可以通过命令行进行使用，具体使用方法请参考项目文档中的“命令行”部分。

3、Python API 使用

MinerU 也提供了Python API，方便用户在自己的程序中集成使用，具体使用方法请参考项目文档中的“API”部分。

MinerU的案例应用

MinerU 主要应用于需要从PDF文档中提取结构化数据的场景，例如：

科学文献处理

MinerU最初是为了解决科学文献中的符号转换问题而开发的，可以用于提取文献中的公式、表格、文本等信息，方便后续的分析和处理。

数据预处理

MinerU可以作为数据预处理工具，将PDF文档转换为结构化的数据，用于训练大型语言模型或其他机器学习模型。

知识图谱构建

MinerU可以用于提取PDF文档中的实体关系信息，用于构建知识图谱。

文档摘要

MinerU可以提取PDF文档中的关键信息，用于生成文档摘要。

其他文本挖掘任务

MinerU可以用于各种文本挖掘任务，例如文本分类、情感分析等。

查看全文

http://www.kler.cn/a/450037.html

Mac iOS、Android、Flutter、React Native开发环境配置

【专题】2024抖音电商母婴行业分析报告汇总PDF洞察（附原数据表）

【ArcGIS Pro】实现一下完美的坐标点标注

“年轻科技旗舰”爱玛A7 Plus正式发布，全国售价4999元

【人工智能】探索当下热门视频生成模型

Elasticsearch：确保业务规则与语义搜索无缝协作

项目开发实践——基于SpringBoot+Vue3实现的在线考试系统(二)

MySQL数据库——复制表数据与结构

Zookeeper基本命令解析

设计模式-访问者设计模式

linux Sudo权限

《探秘 Qt Creator Manual 4.11.1》

基于Java的秦皇岛旅游景点管理系统

【WRF教程第3.5期】预处理系统 WPS 详解：以4.5版本为例

电脑出现 0x0000007f 蓝屏问题怎么办，参考以下方法尝试解决

1.使用 Couchbase 数仓和 Temporal（一个分布式任务调度和编排框架）实现每 5 分钟的增量任务

Vue（四）

Playwright 解决京东滑块：自动化挑战大揭秘

MLU运行Stable Diffusion WebUI Forge【flux】

springBoot Bean加载流程

MinerU的简介

0、日志

1、MinerU 的主要特点

2、已知问题

MinerU 安装和使用方法

1、MinerU的三种体验方式

T1、在线演示

T2、快速CPU演示

T3、GPU 使用

2、命令行使用

3、Python API 使用

MinerU的案例应用

科学文献处理

数据预处理

知识图谱构建

文档摘要

其他文本挖掘任务

相关文章：