当前位置：首页 > article >正文

使用 OCRmyPDF 将扫描 PDF 转为可搜索文档和文本文件

article 2025/3/31 13:37:20

OCRmyPDF 是一个功能强大的开源工具，通过光学字符识别（OCR）技术，将扫描的 PDF 文件转换为带有可搜索文本层的文档，同时还能提取纯文本文件（TXT）。它既是一个脚本化的命令行程序，也提供了 Python API，适用于从简单文件处理到复杂批量任务的各种场景。本文将带你从安装到使用，全面掌握 OCRmyPDF 的功能。

什么是 OCRmyPDF？

OCRmyPDF 基于 Tesseract OCR 引擎，主要功能是为扫描的 PDF 添加可搜索的文本层。它支持多语言、页面调整、元数据修改等功能，并能通过 --sidecar 选项生成 TXT 文件。无论是命令行还是 Python 调用，它都是文档处理的高效选择。

第一步：安装 OCRmyPDF 和语言包

安装环境

OCRmyPDF 支持 Linux、macOS 和 Windows（推荐通过 WSL）。以下是安装步骤：

Linux

安装 Tesseract 和语言包：

http://www.kler.cn/a/612027.html

相关文章：

＜sa8650＞QCX Camera Channel configuration

如何根据目标网站调整Python爬虫的延迟时间？

Postman 版本信息速查：快速定位版本号

量子计算模拟中的测量与噪声建模：基于 3 量子比特系统分析

甘肃旅游服务平台+论文源码视频演示

算法每日一练 (20)

容器C++

关于优麒麟ukylin如何更换清华源以及ubuntu24.04安装gcc-i686-linux-gnu找不到包的问题

C#中3维向量的实现

【商城实战(74)】数据采集与整理，夯实电商运营基石

使用crontab 每两分钟执行一次进入 /var/xxx 执行 git pull

力扣 --2712. 使所有字符相等的最小成本

批量处理word里面表格单元格中多余的回车符

【电气设计】接地/浮地设计

Spring Boot框架

VScode cl配置

redis常用部署架构之redis分片集群。

双塔模型2之如何选择正确的正负样本

iOS 在collectionView顶部无缝插入数据效果

Pydantic Schema生成指南：自定义JSON Schema