当前位置: 首页 > article >正文

tesseract ocr 安装/调用/训练

安装

jTessBoxEditor 训练工具自带 tesseract-ocr
VietOCR - Browse /jTessBoxEditor at SourceForge.net
jTessBoxEditor 需要 JDK 依赖 jdk-8u201-windows-x64.exe下载地址 Java Downloads | Oracle

tessseract 开源地址  https://github.com/tesseract-ocr/tesseract

PHP 调用 tessseract 的包 composer require thiagoalessio/tesseract_ocr

WINDOWS 系统环境变量 TESSDATA_PREFIX = D:\soft\jTessBoxEditor-2.5.0\tesseract-ocr\tessdata\

jTessBoxEditor-2.2.0 是 tessseract V4 引擎

jTessBoxEditor-2.5.0 是 tessseract V5 引擎

调用

tesseract 1.png output -l eng //tesseract.exe 直接调用,会在目录下产生一个 output.txt 文件, -l 指定哪种语言,在 tessdata 目录下找 xxxx..traineddata

PHP 调用

require '../composer/vendor/autoload.php'; // 加载 Composer 自动加载器
use thiagoalessio\TesseractOCR\TesseractOCR;

try{
    $tesseract = new TesseractOCR('./temp/t440_546.png');
    $tesseract->executable('D:/soft/jTessBoxEditor-2.5.0/tesseract-ocr/tesseract.exe'); 
    $tesseract->lang('luoma');//eng,osd,digits
    $text = $tesseract->run();
    echo "结果:".$text;
} catch (UnsuccessfulCommandException $e) {
    echo "识别图片 {$imagePath} 时发生错误:{$e->getMessage()}\n";
} catch (Exception $e) {
    // 捕获其他异常,并输出错误消息
    echo "发生未知错误:{$e->getMessage()}\n";    
}

训练

jTBE(jTessBoxEditor简称后同)
jTBE > Trainer 相关 

  • Tesseract ExecuTables = D:/soft/jTessBoxEditor-2.5.0/tesseract-ocr/tesseract.exe
  • Training Data = E:\www\test\ocr\luoma.tiff #自己的临时工作目录
  • Language = luoma #自定义语言名称
  • Bootstrap Language = eng #附加哪个语言
  1. jTBE > Tools > MergeTIFF 将多张图片合并到一个 .tiff 文件中,V4 引擎需要白底黑字
  2. 创建 box 文件,有两种方式 jTBE  和 命令
      1 jTBE > Trainer > Make Box File > Run
      2 命令
    #第一个1.bat文件创建 box 文件, 其中 luoma 为自己定义的新语言
    set ExePath=D:\soft\jTessBoxEditor-2.5.0\tesseract-ocr
    set font=luoma
    %ExePath%\tesseract %font%.tif %font% -l eng --psm 7 batch.nochop makebox
    echo %font% 0 0 0 0 0 > font_properties
    pause
  3. jTBE > Box Editor 打开 xxx.tiff 文件,借助图片工具(如PS)框坐标与录文字
    BOX文件格式 A 12 11 18 25 0 其中 0 表示在 tiff 中的第几页
    BOX文件坐标与PS图片像素坐标的对应关系 PS:X=12 Y=10 Width=6 Heigth=14,图片高度ImgHeight=35,
    规则 X,   ImgHeight - Y - Height ,   X + Width,   ImgHeight - Y = 12 11 18 25

  4. 创建 traineddata 文件,有两种方式 jTBE  和 命令
    1 jTBE > Trainer > Train With Existing Box > Run

    #第二个 2.bat 文件创建 luoma.traineddata
    set ExePath=D:\soft\jTessBoxEditor-2.5.0\tesseract-ocr
    set font=luoma
    %ExePath%\tesseract %font%.tif %font% nobatch box.train
    unicharset_extractor %font%.box
    shapeclustering -F font_properties -U unicharset -O unicharset %font%.tr
    mftraining -F font_properties -U unicharset %font%.tr
    cntraining %font%.tr
    
    rename normproto %font%.normproto
    rename inttemp %font%.inttemp
    rename pffmtable %font%.pffmtable
    rename unicharset %font%.unicharset
    rename shapetable %font%.shapetable
    
    combine_tessdata %font%.
    pause
  5.  将 luoma.traineddata 复制到 D:\soft\jTessBoxEditor-2.5.0\tesseract-ocr\tessdata\


http://www.kler.cn/a/274323.html

相关文章:

  • Kali操作系统简单介绍
  • 【ETCD】【源码阅读】深入分析 storeTxnWrite.Put方法源码
  • 【LeetCode】394、字符串解码
  • Qt5HttpServer : Qt官方的HTTP服务器
  • 消息队列 Kafka 架构组件及其特性
  • 蓝桥杯刷题——day8
  • 使用Java JDBC连接数据库
  • c语言指针(二)
  • 概率统计在AI中的作用
  • Java项目利用Redisson实现真正生产可用高并发秒杀功能 支持分布式高并发秒杀
  • 在线教育平台帮助教培机构打造线上
  • 代码随想录算法训练营第二十八天 | 93.复原IP地址 78.子集 90.子集II
  • IText5填充PDF表单使用自定义字体中文生效而英文和数字不生效?
  • Lua中文语言编程源码-第五节,更改lcorolib.c协程库函数, 使Lua加载中文库关键词(与所有的基础库相关)
  • 构建Helm chart和chart使用管道与函数简介
  • (008)Unity StateMachineBehaviour的坑
  • 自动驾驶决策 - 规划 - 控制 (持续更新!!!)
  • 移除元素(leetcode)
  • 人外周血单核细胞来源树突状细胞(MoDC)的制备(一)
  • 下拉树级带搜索功能
  • 分布式锁的详细解释
  • Linux Shell中的循环控制语句
  • 代码随想录算法训练营第二十四天|leetcode78、90、93题
  • 软件测试:C++ Google Test单元测试框架GTest
  • 虚拟机VMware上 centos7 的网络配置
  • 单调栈,LeetCode 1793. 好子数组的最大分数