当前位置：首页 > article >正文

专为RAG和AGENT而生的PDF解析新工具：PymuPDF4LLM

article 2025/2/7 21:25:05

利用大模型（LLM），结合本地知识，开发 RAG 或者 AGENT 的应用，解析 PDF 文档几乎是不可避免的事情。多数开发者可能习惯使用 LlamaParse。这个工具虽然可以用，但总有不满意之处。

为此，就出现了一个专为大语言模型（LLMs，Large Language Models）设计的 PDF 解析的大杀器：PymuPDF4llm。它就像一把超级瑞士军刀，能轻松破解任何 PDF 文档，为你提供 AI 项目渴求的干净结构化数据。

当然，PymuPDF4llm 必须是开源的，它免费、强大且专为 LLMs 打造。这是它的第一个也是最重要的一个特征。

大语言模型（LLMs）钟爱整洁数据。它们需要结构化、组织良好的信息才能真正发光发热。这正是 PymuPDF4llm 的专长，它能够从混杂这图片、文字、表格的 PDF 文档中，将各种信息优雅地组织称 Markdown 格式。可堪称生产力的飞跃。

1. 安装：一行代码轻松搞定

使用 pip 快速安装：

pip install pymupdf4llm

安装完成，准备就绪！

2. 导入神器：召唤解析力量

导入库文件：

import pymupdf4llm

3. 文本提取：化混乱为有序

解析"input.pdf"文件：

md_text = pymupdf4llm.to_markdown("input.pdf")
print(md_text)

瞬间获得整洁的 Markdown 格式文本！存储为 UTF-8 编码文件：

import pathlib

output_file = pathlib.Path("output.md")
output_file.write_bytes(md_text.encode())

PymuPDF4llm的强大远不止文本提取：

4. 表格提取：数据金矿开采

轻松提取表格并转换为结构化数据：

md_text_tables = pymupdf4llm.to_markdown(
    doc="input_tables.pdf"
)

5. 图像处理：视觉元素解析

支持指定页面范围、存储路径和图像格式（PNG/JPG/GIF）：

md_text_images = pymupdf4llm.to_markdown(
    doc="input_images.pdf",
    pages=[0, 2],
    page_chunks=True,
    write_images=True,
    image_path="images",
    image_format="png",
    dpi=300
)

6. 文档结构：深度解析专家

支持逐字提取和结构分析：

md_text_words = pymupdf4llm.to_markdown(
    doc="input.pdf",
    pages=[0, 1, 2],
    page_chunks=True,
    write_images=True,
    image_path="images",
    image_format="png",
    dpi=300,
    extract_words=True
)

PymuPDF4llm 可谓是 PDF 解析的革命（这么说是不是太夸张了呀？）。供大家参考使用。

查看全文

http://www.kler.cn/a/535558.html