当前位置: 首页 > article >正文

[tesseract]Deserialize header failed: FIRC.lstmf

tesseract5.0训练时候会提示

[INFO]cd /d D:\program\tesseract-ocr-lstm-train\data
[INFO]D:\program\tesseract-ocr-lstm-train\Tesseract-OCR\tesseract.exe xiangjiao.tif xiangjiao -l eng --psm 7 lstm.train
[INFO]Page 1
[INFO]Page 2
[INFO]Deserialize header failed: xiangjiao.lstmf
[INFO]Failed to read training data from xiangjiao.lstmf!
[INFO]Error during processing.

原因分析:psm方式和标注框不对应,查看box文件标注为单字符标注,因此选用7不合适,关于psm详细用法如下:

调用ocr识别:
tesseract [image_path][output_file][-l lang][--psm page_seg_mode][--oem ocr_engine_mode]
[image_path]:需要识别图形路径;
[output_file]:识别结果保存路径;
[-l lang]:语言,也就是字库文件;
[--psm page_seg_mode]:设置页面分割模式;
[--oem ocr_engine_mode]:OCR 引擎模式。

--psm详细解释:
=======================================
0 =仅限方向和脚本检测(OSD)。
1 =使用OSD自动分页。
2 =自动页面分割,但没有OSD或OCR。(未实现)
3 =全自动页面分割,但没有OSD。(默认)
4 =假设一列可变大小的文本。
5 =假设一个垂直对齐文本的统一块。
6 =假设一个统一的文本块。
7 =将图像视为单个文本行。
8 =将图像视为单个单词。
9 =将图像视为圆形中的单个单词。
10 =将图像视为单个字符。
11 =稀疏文本。找到尽可能多的文本,没有特定的顺序。
12 =带OSD的稀疏文本。
13 =原始线。

--oem详细解释:
=======================================
0 =仅原始Tesseract引擎。
1 =神经网络仅限LSTM。
2 =原始Tesseract引擎 + LSTM。
3 =默认,基于可用的内容。

输出结果保存方式:
- alto  - 以ALTO格式输出(OUTPUTBASE.xml)。
- hocr  - 以hOCR格式输出(OUTPUTBASE.hocr)。
- pdf  - 输出PDF(OUTPUTBASE.pdf)。
- tsv  - 输出TSV(OUTPUTBASE.tsv)。
- txt  - 输出纯文本(OUTPUTBASE.txt)。
- get.images  - 将处理后的输入图像写入文件(tessinput.tif)。
- logfile  - 将调试消息重定向到文件(tesseract.log)。
- lstm.train  -  LSTM培训使用的输出文件(OUTPUTBASE.lstmf)。
- makebox  - 写入框文件(OUTPUTBASE.box)。
- quiet  - 将调试消息重定向到/ dev / null。

因此最终选择psm为13解决上面了报错 


http://www.kler.cn/a/488849.html

相关文章:

  • 宝塔安装教程,bt怎么安装 linux
  • 高级软件工程-复习
  • 计算机的错误计算(二百零七)
  • 2024年度漏洞态势分析报告,需要访问自取即可!(PDF版本)
  • istio-proxy oom问题排查步骤
  • 【面试题】技术场景 4、负责项目时遇到的棘手问题及解决方法
  • 【力扣热题100】—— Day20.多数元素
  • 【网络协议】动态路由协议
  • 深入探索AI核心模型:CNN、RNN、GAN与Transformer
  • 【Leetcode-移动零】利用将非零元素移动至数组前解决移动零问题(剪枝优化)
  • TypeScript语言的网络编程
  • Linux第一个系统程序---进度条
  • 详细分析 Git 分支重命名与同步操作
  • Harmony OS开发-ArkUI框架速成八之交叉轴和自适应
  • 【Qt】控件概述和QWidget核心属性1(enabled、geometry、windowTitle、windowIcon、QRC机制)
  • 全文搜索-搜索权限,非侵入文档同步,权限同步 ,扩展字段
  • 深度解析如何使用Linux中的git操作
  • Python 教程 - 基本语句
  • 【Golang 面试题】每日 3 题(二十四)
  • LeetCode 3297.统计重新排列后包含另一个字符串的子字符串数目 I:滑动窗口
  • 机器学习05-最小二乘法VS梯度求解
  • 单片机实现模式转换
  • 日语IT用语笔记
  • c++入门之 命名空间与输入输出
  • 力扣-数组-121 买卖股票的最佳时机
  • qml SpringAnimation详解