当前位置: 首页 > article >正文

Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)


http://www.kler.cn/a/375485.html

相关文章:

  • 参数名在不同的SpringBoot版本中,处理方案不同
  • 事件驱动编程与异步编程:原理、对比及实践案例
  • 12.25周三F34-Day36打卡
  • Flink调优----反压处理
  • Centos7中使用yum命令时候报错 “Could not resolve host: mirrorlist.centos.org; 未知的错误“
  • Vue.js前端框架教程11:Vue监听器watch和watchEffect
  • 游戏和各大APP改IP地址方法教程
  • java控制台打印减法口诀
  • 【机器学习】22. 聚类cluster - K-means
  • python openai API token超限制
  • 测试Bug提交报告模板
  • Linux-期末考试试题8套(含答案)
  • JavaIO流操作
  • BGP路由优选+EVPN
  • npm入门教程6:npm脚本
  • PHP实现雪花算法生成唯一ID
  • 【银河麒麟高级服务器操作系统】虚拟机lvm分区丢失现象分析及解决建议
  • 初始JavaEE篇——多线程(7):定时器、CAS
  • <meta property=“og:type“ content=“website“>
  • 高级java每日一道面试题-2024年10月26日-JVM篇-JVM的类加载机制是什么?
  • 【机器学习】26. 聚类评估方法
  • Ubuntu 系统、Docker配置、Docker的常用软件配置(下)
  • Docker-in-Docker(DinD)
  • 4:arm汇编语言4:bits/byte的介绍(ASCII码)与二进制补位
  • 【数据结构】guard
  • PyMOL中常用的命令列表