当前位置: 首页 > article >正文

fitz获取pdf内容

1.获取pdf单页,及所有内容

import fitz  # PyMuPDF

# 打开 PDF 文件
pdf_path = r"/data2/ljsang/0106/0725_Self-organization-of-plasticity-and-specialization-in-a-primi_2022_Cell-Syst.pdf【唯一淘宝店铺:艾米学社】.pdf"
doc = fitz.open(pdf_path)

# 获取第一页
page = doc.load_page(0)

# 提取页面中的文本信息(以字典形式返回)
text_dict = page.get_text("dict")

# 遍历文本块
for block in text_dict["blocks"]:
    # 检查是否为文本块(type == 0)
    if block["type"] == 0:  # 0 表示文本块
        # 遍历行
        for line in block["lines"]:
            # 遍历字符片段
            for span in line["spans"]:
                text = span["text"]       # 文本内容
                font_size = span["size"]  # 字号大小
                font_name = span["font"]  # 字体名称
                print(f"文本: {text}, 字号: {font_size}, 字体: {font_name}")
    else:
        print(f"跳过非文本块,类型: {block['type']}")
import fitz  # PyMuPDF

# 定义 PDF 文件路径
pdf_path = r"/data2/66.pdf"

# 打开 PDF 文件
with fitz.open(pdf_path) as pdf:
    # 获取 PDF 的总页数
    total_pages = len(pdf)
    print(f"PDF 文件总页数: {total_pages}")

    # 遍历每一页
    for page_num in range(total_pages):
        print(f"正在处理的页码为 {page_num + 1}...")

        # 获取当前页
        page = pdf.load_page(page_num)

        # 提取文本内容
        text = page.get_text("text")

        if text:
            print("提取的文本内容:")
            print(text)
        else:
            print("该页无文本内容。")

2.获取每篇pdf内容,以及DOI号

import fitz  # PyMuPDF
import re
import os

# 正则表达式匹配 DOI 号
doi_pattern = re.compile(r'https?://(?:dx\.)?doi\.org/10\.\d{4}/[^/\s]+')

# 检查 PDF 是否包含 DOI 号
has_doi = False
doi_numbers = []

# PDF 文件路径
pdf_path = r"/data2/ljsang/0106/0725_Self-organization-of-plasticity-and-specialization-in-a-primi_2022_Cell-Syst.pdf【唯一淘宝店铺:艾米学社】.pdf"

# 使用 fitz 打开 PDF 文件
pdf_document = fitz.open(pdf_path)

# 遍历每一页
for page_num in range(len(pdf_document)):
    page = pdf_document.load_page(page_num)  # 加载页面
    text = page.get_text()  # 提取文本内容

    # 检查文本中是否包含 DOI 号
    if text:
        dois = doi_pattern.findall(text)
        if dois:
            has_doi = True
            doi_numbers.extend(dois)

# 输出结果
print("DOI 号列表:", doi_numbers)
print("是否包含 DOI 号:", has_doi)

http://www.kler.cn/a/500900.html

相关文章:

  • SQL HAVING 子句深入解析
  • CTFshow—文件包含
  • 【微服务】SpringBoot 整合Redis实现延时任务处理使用详解
  • 操作系统之磁盘
  • HTTP 入门:认识网络通信基础
  • 3298. 统计重新排列后包含另一个字符串的子字符串数目 II
  • 浅谈云计算04 | 云基础设施机制
  • 游戏引擎学习第78天
  • SmartScanner:智能化网络漏洞扫描的未来先锋
  • RAID储存技术
  • [创业之路-242]:《华为双向指挥系统》-1-组织再造-纠正企业管理的长短腿-科层制优缺点以及科层制企业的特点
  • uniapp Android 原生插件开发-Module扩展为例-从开发到测试到部署到uniapp项目
  • 算法练习01
  • AF3 Transition和ConditionedTransitionBlock类解读
  • C# 与 Windows API 交互的“秘密武器”:结构体和联合体
  • 【Vue + Antv X6】可拖拽流程图组件
  • NGINX--HTTPTCP负载均衡
  • 无需昂贵GPU:本地部署开源AI项目LocalAI你在消费级硬件上运行大模型
  • 基于python Numpy的24位音频数据读取实例解析
  • Playwright vs Selenium:全面对比分析
  • MySQL 深度分页:挑战与优化指南
  • 深度学习助力网络故障定位:提升运维效率的新利器
  • 前端学习网络
  • 里氏替换原则(Liskov Substitution Principle,LSP):面向对象设计的基本原则
  • Python实现windows自动关机
  • YARN 架构组件及原理