当前位置: 首页 > article >正文

Python代码优雅解析PDF文件

主要功能:利用Python扩展库pdfplumber解析中文核心期刊要目总览.pdf文件成excel文件

解析文件:中文核心期刊要目总览.pdf

官方文档:pdfplumber · PyPI

具体代码:

import pdfplumber
import pandas as pd

with pdfplumber.open("hexin.pdf") as pdf:
    print(len(pdf.pages))
    first = pdf.pages[0]
    ftable = first.extract_table()
    tables = ftable[2:]
    for page in pdf.pages[1:]:
        tables += page.extract_table()
    data_frame = pd.DataFrame(tables, columns=ftable[1])
    with pd.ExcelWriter('hexin.xlsx') as excel:
        data_frame.to_excel(excel, index=False)


http://www.kler.cn/a/375485.html

相关文章:

  • MongoDB 6.0 主从复制配置
  • 2021-10-28 51蛋骗鸡独立按键控制LED和蜂鸣器
  • AI视频管理平台中使用目标检测模型中的NMS参数原理及设置原则
  • 商务英语学习柯桥学外语到泓畅-老外说“go easy on me”是什么意思?
  • 防火墙技术应用
  • vue3中跨层传递provide、inject
  • 游戏和各大APP改IP地址方法教程
  • java控制台打印减法口诀
  • 【机器学习】22. 聚类cluster - K-means
  • python openai API token超限制
  • 测试Bug提交报告模板
  • Linux-期末考试试题8套(含答案)
  • JavaIO流操作
  • BGP路由优选+EVPN
  • npm入门教程6:npm脚本
  • PHP实现雪花算法生成唯一ID
  • 【银河麒麟高级服务器操作系统】虚拟机lvm分区丢失现象分析及解决建议
  • 初始JavaEE篇——多线程(7):定时器、CAS
  • <meta property=“og:type“ content=“website“>
  • 高级java每日一道面试题-2024年10月26日-JVM篇-JVM的类加载机制是什么?
  • 【机器学习】26. 聚类评估方法
  • Ubuntu 系统、Docker配置、Docker的常用软件配置(下)
  • Docker-in-Docker(DinD)
  • 4:arm汇编语言4:bits/byte的介绍(ASCII码)与二进制补位
  • 【数据结构】guard
  • PyMOL中常用的命令列表