当前位置: 首页 > article >正文

RAG中pdf解析的方法全览

RAG中解析PDF的方法

一 pdf格式都有哪些

1.机器生成的pdf文件,包含图像,文本,可以被编辑

2.传统扫描文档,表现为图像,不能被编辑

3.带OCR的扫描文档。可能转OCR的过程中带入了错误。

二 pdf解析全科指南
全面指南———用python提取PDF中各类文本内容的方法 https://www.luxiangdong.com/2023/10/05/extract/
img
https://mp.weixin.qq.com/s/SjdoTv1htO6Ti98g3qgBjQ

image-20240506152725865

1.pdfplumber

https://blog.csdn.net/fuhanghang/article/details/122579548
pdfplumber的主要类和方法

image-20240301105350730

image-20240301105435256

pdfplumber对于表格的提取

image-20240301113228381

参考https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/extract-table-ca-warn-report.ipynb
代码:
pdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")
p0=pdf.pages[0]
im = p0.to_image()  #display 第一页
table = p0.extract_table() 抽取其中最大的表格

import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
for column in ["Effective", "Received"]:
    df[column] = df[column].str.replace(" ", "")  使用panda来吧table抽取到的数据转成dataFrame格式

2.layout parser

layoutparser 是一个基于深度学习的文档图像分析工具包,它提供了布局检测、OCR识别、布局分析等接口,适用于处理和分析扫描文档或图像中的文字。

https://zhuanlan.zhihu.com/p/391138225

首先,将pdf的每一页转为图像,以便对其执行OCR来提取文本块。

pip install pdf2image
images = convert_from_bytes(open('FILE PATH', 'rb').read())  #将pdf的每一页转为图像并保存在内存中
image = np.array(image) #将图像转为像素值数据

解析pdf论文的话,使用特定模型

image-20240301173308990

参考 https://zhuanlan.zhihu.com/p/602615194

LayoutParser为常见的OCR工具提供了统一的接口,示例代码如下:

ocr_agent = lp.TesseractAgent()  layourparser要与Tesseract 这个包相结合

image-20240301180620799

使用代码如下

import layoutparser as lp
image = cv2. imread (" image_file ") # load images
model = lp. Detectron2LayoutModel ("lp :// PubLayNet / faster_rcnn_R_50_FPN_3x / config ")
layout = model . detect ( image )

3.paddlepaddle的工具

https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7/ppstructure

该代码从pdf中结构出各个标题层级的关系,又在word中重建该结构。

图片

4.其他解析pdf获得子标题的方法

1.先ocr,再版面解析
https://www.textin.com/experience/pdf-to-word
2.用fitz提取,再写正则规则匹配
3.参考论文 
https://arxiv.org/pdf/2308.14978.pdf
4.google的document ai
5.参考如下项目
https://github.com/OKC13/General-Documents-Layout-parser
6.使用如下接口 
https://apifox.com/apidoc/shared-a55f1a3d-4871-41b7-8f1a-3af83807410b/api-120356017

http://www.kler.cn/a/286117.html

相关文章:

  • [范文赏析 代码复盘]2023高教社杯数学建模国赛C题详细代码 文章 数据教学 保姆级手把手包含文档格式 2024数模国赛教学:蔬菜类商品的自动定价和补货决策
  • 信息安全--(五)物理与环境安全技术(一)物理安全概念
  • 逆向工程核心原理 Chapter22 | 恶意键盘记录器
  • iPhone 16 系列和多款新品将亮相,苹果发布会定档 9 月 10 日|TodayAI
  • Python在神经网络中优化激活函数选择使用详解
  • [Day 67] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
  • Qt中的各种“q+基本数据类型“
  • P1880 [NOI1995] 石子合并【模板】区间DP
  • 安全入门day.03
  • 排序算法之归并排序详细解读(附带Java代码解读)
  • 功能强大的开源数据中台系统 DataCap 2024.03.9 发布
  • 反向迭代器:reverse_iterator的实现
  • STM32(F103ZET6)第二十四课:IAP离线固件升级
  • 【微服务】限流、熔断和降级(持续更新中~)
  • 第十七篇——九变篇:紧扣战略重心,别跑题
  • Java中的事件驱动架构(EDA)
  • 基于Python、Django的企业门户网站设计
  • gethub-rrsf
  • 10 款企业级项目管理系统是你理想中的那一款吗
  • (三)了解MySQL 【用户创建和权限/索引】