当前位置：首页 > article >正文

使用PyPDF2工具加载pdf文件数据

article 2025/2/28 15:47:06

任务描述

预训练bert模型时需要加载到pdf文件数据进行预处理，这里使用了pypdf2这个工具包，简单记录一下代码。

pip 安装

pip install pypdf2

python 代码

import PyPDF2

# 使用open的‘rb’方法打开pdf文件，使用二进制模式
mypdf = open('data.pdf', mode='rb')

# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)

# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}") 

# 调用PdfReader对象的pages()方法，传入页码，取得Page对象：输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")

# 调用Page对象的extract_text()方法，返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")

打印pdf第1页数据

http://www.kler.cn/a/420821.html

相关文章：

Linux C/C++编程之动态库

使用Grafana K6来测测你的系统负载能力

前端禁用页面复制粘贴

SpringBoot 构建在线家具商城：系统设计与技术实现

element-ui的下拉框报错：Cannot read properties of null (reading ‘disabled‘)

Qt入门6——Qt窗口

python学习笔记13 python中的函数（下）

40分钟学 Go 语言高并发：【实战课程】性能瓶颈分析与优化实战

基于Matlab合成孔径雷达(SAR)回波信号建模与多指标质量评估

nodejs建立TCP服务器端和TCP客户端之间的连接

VisionPro、Mac、IPad、如何连接Windows 文件互传

YOLOv8-ultralytics-8.2.103部分代码阅读笔记-loss.py

深入探索 CnosDB 可观测性最佳实践：Metrics

架构师：Dubbo 服务请求失败处理的实践指南

蓝桥杯真题——砍竹子（C语言）

如何在Spark中使用gbdt模型分布式预测

中国电信张宝玉：城市数据基础设施建设运营探索与实践

【前端】JavaScript 中的 this 与全局对象 window深度解析

diffusion model： prompt-to-prompt 深度剖析

设计模式：15、生成器模式