当前位置: 首页 > article >正文

使用pymupdf提取PDF文档中的文字和其颜色

最近我在捣鼓一个PDF文件,想把它里面的文字和文字颜色给提取出来。后来发现有个叫pymupdf的库能搞定这事儿。操作起来挺简单的,pymupdf的示例文档里就有现成的代码可以参考。
how-to-extract-text-with-color
在这里插入图片描述

我本地的测试代码如下:

import pymupdf
import sys

# sys.argv[1] 为文件名!
doc = pymupdf.open(sys.argv[1])
page = doc[0]


for page in doc:
    text_blocks = page.get_text("dict", flags=pymupdf.TEXTFLAGS_TEXT)["blocks"]
    for block in text_blocks:
        for line in block["lines"]:
            for span in line["spans"]:
                text = span["text"]
                color = pymupdf.sRGB_to_rgb(span["color"])
                print(f"Text: {text}, Color: {color}")

运行效果如下:
在这里插入图片描述
我弄的那个文档里,有一块内容是这样的,项目里的文字被标成橙色,就是那种选中后的样子,所以我特别留意了它的颜色提取。
在这里插入图片描述
所以我需要抽取出文字的同时,还需要文字的颜色
在这里插入图片描述
在这里插入图片描述

推荐相关的文章 PymuPDF4llm:PDF 提取的革命


http://www.kler.cn/a/420539.html

相关文章:

  • 【北京迅为】iTOP-4412全能版使用手册-第三十二章 网络通信-TCP套字节
  • Next.js 路由使用完整指南
  • 为什么编程语言会设计不可变的对象?字符串不可变?NSString *s = @“hello“变量s是不可变的吗?Rust内部可变性的意义?
  • 传智杯 A字符串拼接
  • Vulnhub靶场 Matrix-Breakout: 2 Morpheus 练习
  • vue实现echarts饼图自动轮播
  • 前端基础的讲解-JS(18)
  • CentOS修改yum.repos.d源,避免“Could not resolve host: mirrorlist.centos.org”错误
  • 【C++】多线程
  • 如何成为一名优秀的炼丹师(三)
  • Docker下的seafile修改配置参数
  • MySQL底层概述—6.索引原理
  • centos搭建keepalive
  • 【AI】Sklearn
  • PHP和GD如何给图片添加模糊边缘效果
  • Flink 常见面试题
  • Pytorch深度学习笔记
  • qml项目创建的区别
  • Linux 下安装 Golang环境
  • webGL入门教程_06变换矩阵与绕轴旋转总结
  • Mysql远程工具Navicat Premium连接报错1130、2003解决方案
  • C++小问题
  • 朗迪锋亮相2024人因工程与智能系统交互国际会议
  • 2024年Java面试八股文大全(附答案版)
  • Unity网络框架对比 Mirror|FishNet|NGO
  • Python网络爬虫的基本原理