使用PyPDF2工具加载pdf文件数据
任务描述
预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。
pip 安装
pip install pypdf2
python 代码
import PyPDF2
# 使用open的‘rb’方法打开pdf文件,使用二进制模式
mypdf = open('data.pdf', mode='rb')
# 调用PdfReader函数
pdf_document = PyPDF2.PdfReader(mypdf)
# 获取PDF文档的页数
page = len(pdf_document.pages)
print(f"page: {page}")
# 调用PdfReader对象的pages()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.pages[0]
print(f"first_page: {first_page}")
# 调用Page对象的extract_text()方法,返回该页文本的字符串
text = first_page.extract_text()
print(f"text: {text}")