当前位置: 首页 > article >正文

Linux笔记--基于OCRmyPDF将扫描件PDF转换为可搜索的PDF

1--官方仓库

https://github.com/ocrmypdf/OCRmyPDF

2--基本步骤

# 安装ocrmypdf库
sudo apt install ocrmypdf

# 安装简体中文库
sudo apt-get install tesseract-ocr-chi-sim

# 转换
# -l 表示使用的语言
# --force-ocr 防止出现以下错误:ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)
# input.pdf 表示待转换的pdf
# output.pdf 表示转换后保存的pdf
ocrmypdf -l chi_sim input.pdf output.pdf --force-ocr

3--常见错误

Error1:

ERROR - PriorOcrFoundError: page already has text! - aborting (use --force-ocr to force OCR)

Solution:

添加--force-ocr

ocrmypdf -l chi_sim input.pdf output3.pdf --force-ocr


http://www.kler.cn/a/414716.html

相关文章:

  • Laravel8.5+微信小程序实现京东商城秒杀方案
  • 网络地址转换
  • 如何在HarmonyOS NEXT中处理页面间的数据传递?
  • javaweb-day02-JS(javascript)
  • 使用爬虫时,如何确保数据的准确性?
  • Spring Boot英语教育网站:从零到一
  • 大语言模型LLM的微调中 QA 转换的小工具 xlsx2json.py
  • C++语法·叭
  • 气膜建筑:打造全天候安全作业空间,提升工程建设效率—轻空间
  • BERT的中文问答系统46网页页面
  • Spring Boot教程之九:创建基本应用程序及Hello Word示例
  • MIG IP核详解(二)
  • 【菜笔cf刷题日常-1400】C. Johnny and Another Rating Drop(位运算,数学)
  • 【Git】Git 完全指南:从入门到精通
  • 记录QT5迁移到QT6.8上的一些问题
  • vscode配置
  • 淘宝商品信息获取:Python爬虫技术的实际应用
  • Spring Boot的理解
  • 适用于学校、医院等低压用电场所的智能安全配电装置
  • MacOS SourceTree Git的使用
  • Wordcloud也能生成一个,带html的词云图文件吗??
  • python: generator model using mysql9.0 or postgreSQL 17.0
  • 基于SpringBoot的“财务管理系统”的设计与实现(源码+数据库+文档+PPT)
  • Java基础面试题07:finalize() 方法什么时候被调用?析构函数(finalization)的目的是什么?
  • 【unity】WebSocket 与 EventSource 的区别
  • 状态模式S