当前位置: 首页 > article >正文

python提取pdf表格到excel:拆分、提取、合并

本文介绍使用python提取pdf中的表格到excel中,包含pdf的拆分、pdf提取到excel、合并excel。

一、拆分pdf

将一个大的pdf按页数拆分为多个小的pdf:

# pip install PyPDF2

import os, pdfplumber, PyPDF2

# 分割pdf
def split_pdf(input_pdf_path, num_splits):
    # Create a PDF reader object
    pdf_reader = PyPDF2.PdfReader(open(input_pdf_path, 'rb'))
    total_pages = len(pdf_reader.pages)
 
    # Calculate the number of pages per split
    pages_per_split = total_pages // num_splits
 
    # Get the directory and base name of the input PDF
    base_dir = os.path.dirname(input_pdf_path)
    base_name = os.path.splitext(os.path.basename(input_pdf_path))[0]
 
    for i in range(num_splits):
        pdf_writer = PyPDF2.PdfWriter()
        start_page = i * pages_per_split
        end_page = start_page + pages_per_split
        if i == num_splits - 1:  # Make sure to include remaining pages in the last split
            end_page = total_pages
 
        for page in range(start_page, end_page):
            pdf_writer.add_page(pdf_reader.pages[page])
 
        output_pdf_path = os.path.join(base_dir, f"{base_name}_part_{i}.pdf")
        with open(output_pdf_path, 'wb') as output_pdf:
            pdf_writer.write(output_pdf)
 
    print(f"PDF split into {num_splits} parts successfully.")

二、提取pdf中的表格到excel中

将pdf表格提取到excel表格中:

# pip install pdfplumber
# pip install openpyxl
 
import os, pdfplumber
from openpyxl import Workbook, load_workbook

# pdf转为xlsx
def analysis_table(pdf_file_name):
    # 打开表格
    workbook = Workbook()
    sheet = workbook.active
 
    num = 0

    # 打开pdf
    with pdfplumber.open(pdf_file_name + '.pdf') as pdf:
        # 遍历每页pdf 
        for page in pdf.pages:
            # 提取表格信息
            tables = page.extract_tables()
            
            # 遍历提取到的所有表格
            for table in tables:
                # 格式化表格数据
                for row in table:
                    sheet.append(row)

            num = num + 1
            print("process page: %d"%(num))

        workbook.save(filename=(pdf_file_name + ".xlsx"))

三、合并多个excel表格到一个excel中

# pip install pdfplumber
# pip install openpyxl
 
import os, pdfplumber
from openpyxl import Workbook, load_workbook

# 合并excel文件
def merge_excels(files, output_name):
    # 加载第一个Excel文件
    wb1 = load_workbook(files[0] + '.xlsx')
    sheet1 = wb1.active

    file_list = files[1::1]
    for file in file_list:
        # 加载第二个Excel文件
        wb2 = load_workbook(file + '.xlsx')
        sheet2 = wb2.active
        
        # 合并两个工作表的数据
        for row in sheet2.iter_rows(values_only=True):
            sheet1.append(row)
     
    # 保存合并后的Excel文件
    wb1.save(output_name + '.xlsx')

四、完整代码

完整代码在:使用python实现pdf表格转为excel表格。


http://www.kler.cn/a/308131.html

相关文章:

  • 【力扣热题100】[Java版] 刷题笔记-169. 多数元素
  • docker更改数据目录
  • 设计模式之工厂模式,但是宝可梦
  • 鸿蒙学习基本概念
  • Spring Boot 中的全局异常处理器
  • WebGIS三维地图框架--Cesium
  • LLM - 理解 多模态大语言模型 (MLLM) 的预训练与相关技术 (三)
  • S-Procedure的基本形式及使用
  • 补题篇--codeforces
  • 安卓将本地日志上传到服务器
  • C语言 | Leetcode C语言题解之题409题最长回文串
  • 深入理解Appium定位策略与元素交互
  • 使用原生HTML的drag实现元素的拖拽
  • Linux C execv/execl函数调用 bash -c
  • 【疑难杂症2024-005】docker-compose中设置容器的ip为固定ip后,服务无法启动
  • supermap iclient3d for cesium中entity使用
  • 【梯度下降|链式法则】卷积神经网络中的参数是如何传输和更新的?
  • 常用压接线端子教程
  • 力扣爆刷第176天之贪心全家桶(共15道题)
  • Java 入门指南:JVM(Java虚拟机)垃圾回收机制 —— 内存分配和回收规则
  • Linux 基础入门操作-实验二 makefile使用介绍 和 实验三 hello 输出
  • 【计算机网络】HTTP相关问题与解答
  • 深度学习:入门简介
  • ESP01的AT指令连接到阿里云平台
  • 春日教育技术:SpringBoot在线视频教学
  • Vue3: setup语法糖