当前位置: 首页 > article >正文

在Windows上用Visual Studio编译Tesseract

Tesseract是著名的OCR(文字识别)开源项目。我想自己编译它的源代码。然而总体而言,大型开源项目在Windows上编译多少都会有些磕磕绊绊,如果有幸最后成功了,都值得写一篇文章来纪念一下。这便是本文的由来。

编译环境:Windows 10(版本1809),Visual Studio 2019(版本16.11.34), CMake 3.30.2

Tesseract依赖于其他开源项目,比如leptonica——这个项目提供图像文件读写、多格式支持、图像处理等功能。在编译Tesseract之前须先编译leptonica。因为我们已经有了OpenCV来做图像处理,我会把leptonica的编译过程尽量简化(即不编译它的依赖项来支持tiff、png、jpeg等图像格式)。以下是详细步骤,分四步。

Step 1:下载CMake工具

从官网下载最新的zip包,本地解压即可使用。我选的是cmake-3.30.2-windows-x86_64.zip。CMake在开源项目中广为使用,可以将它的路径配置到系统环境变量的Path中,方便调用。

Step 2:编译leptonica

首先从GitHub获取源代码:

$ git clone https://github.com/DanBloomberg/leptonica.git

代码下载完成后,在项目目录下创建一个build文件夹。然后,运行CMake带UI的版本,即cmake-gui.exe,完成“Where is the source code”和“Where to build the binaries”两项配置,就继续点“Configure”按钮,在弹出的对话框里选择“Visual Studio 16 2019”(其他都保持默认设置即可),继续…… 会弹出一个出错提示框,关掉后继续修改配置选项:

  1. 去掉这些勾选:ENABLE_GIF、ENABLE_JPEG、ENABLE_OPENJPEG、ENABLE_PNG、ENABLE_TIFF、ENABLE_WEBP、ENABLE_ZLIB,因为我们不需要leptonica支持这些图像格式,使用leptonica原生支持的BMP格式足矣。
  2. 去掉SW_BUILD的勾选。SW是一个强大的包管理器,它会自动下载依赖项,但我们这里不需要它。

然后再次点击“Configure”按钮,不出意外的话就不会有错误弹窗了。截屏留念:

继续点“Generate”按钮生成Visual Studio的编译工程,然后点“Open Project”启动Visual Studio,然后就可以编译啦!遗憾的是,出了一大堆编译错误:

2>C:\Program Files (x86)\Windows Kits\10\Include\10.0.17763.0\um\oaidl.h(487,17): error C2059: 语法错误:“/” (编译源文件 ..\leptonica\src\leptwin.c)

这个问题折腾了比较久…… 解决方法倒也简单,在leptonica项目属性页中,将 “常规” | “C语言标准”改成“默认(旧MSVC)”即可:

编译通过后,在leptonica\build\src目录下会生成两个库文件:leptonica-1.84.1.lib(Release版)和leptonica-1.84.1d.lib(Debug版)。

Step 3:编译Tesseract

先从GitHub获取源代码吧:

$ git clone https://github.com/tesseract-ocr/tesseract.git

使用CMake的配置过程与leptonica项目有点相似,只是要多点几次“Configure”……

  1. 下载SW工具。从software-network.org下载 sw-master-windows_x86_64-client.zip,本地解压,并把它的路径加到系统环境变量的Path中。虽然我们实际上不用SW,但这一步配置也是需要的L
  2. 首次点击“Configure”按钮后,需要去掉SW_BUILD、BUILD_TRAINING_TOOLS的勾选,并勾上DISABLE_TIFF,再次点击“Configure”
  3. 此时有新的错误提示,需要为Leptonica_DIR指定一个路径。我本机leptonica项目的编译路径是D:\Dev\GitHub\leptonica\build,配置完后再次点击“Configure”

此时,不出意外的话就不会有错误弹窗了,然后“Generate”、“Open Project”一路点下去……截屏留念:

在Visual Studio中开始编译之前,需要修改一下libtesseract的项目配置,因为它对leptonica的包含路径默认是C:\Program Files (x86)\leptonica\include 和 C:\Program Files (x86)\leptonica\include\leptonica,这与实际情况不符,需要在项目属性页的 “C/C++” | “常规” | “附加包含目录” 改为我们在Step 2的真实路径,即:

D:\Dev\GitHub\leptonica\src

D:\Dev\GitHub\leptonica\build\src

我们需要的是Tesseract库(以做二次开发),所以只需要单独编译libtesseract。编译通过后,在tesseract\build目录下会生成两个库文件:tesseract54.lib(Release版)和tesseract54d.lib(Debug版)。

Step 4: 验证Tesseract库

Tesseract和leptonica两个库都编译好了,可喜可贺!严谨起见,我们还需要写一个测试程序来验证一下。用Visual Studio创建一个控制台程序。然后进行如下的项目配置:

属性页 | C/C++ | 常规 | 附加包含目录,添加以下四个目录:

..\leptonica\src; ..\leptonica\build\src; ..\tesseract\include\tesseract; ..\tesseract\build\include

属性页 | 链接器 | 常规 | 附加库目录,添加以下两个目录:

..\leptonica\build\src\$(Configuration)\; ..\tesseract\build\$(Configuration)\

注:我的测试项目tesseract_testapp与tesseract、leptonica两个项目是并级的,所以使用了上述相对路径。你需要根据你本机的实际情况做必要的调整。

属性页 | 链接器 | 输入 | 附加依赖项,添加以下两个.lib文件:

Debug版:leptonica-1.84.1d.lib; tesseract54d.lib

Release版:leptonica-1.84.1.lib; tesseract54.lib;

测试代码如下:

#include "baseapi.h" 
#include "allheaders.h"
#include <iostream>

int main()
{
    tesseract::TessBaseAPI* api = new tesseract::TessBaseAPI();
    // 初始化,加载语言包
    if (api->Init("tessdata", "eng")) {
        std::cout << "Could not initialize tesseract" << std::endl;
        return -1;
    }

    // 因为我们编译的leptonica库支持的格式有限,此处用原生支持的BMP来测试
    Pix* image = pixRead("numbers.bmp");
    if (image) {
        api->SetImage(image);
        char* outText = api->GetUTF8Text();
        std::cout << "OCR result: " << outText << std::endl;
        delete[] outText;
        pixDestroy(&image);
    }
    
    api->End();
    delete api;
    return 0;
}

注:完整的代码工程可从https://github.com/luqiming666/tesseract_testapp 下载。

在编译运行之前,还需创建一个tessdata文件夹,并在其中放入一份英文版的训练数据。若需要支持更多语言,到https://github.com/tesseract-ocr/tessdata下载后缀名为.traineddata的语言包放到tessdata文件夹内即可。

P.S. 万一你折腾半天,还是没法把Tesseract库成功编译出来,抑或你只是想要一个现成的工具来看看文字识别效果,也可以到https://github.com/UB-Mannheim/tesseract/wiki 下载人家制作好的安装包。拿来即用。安装完成后,运行命令行:tesseract {图片文件路径} {输出结果文件名},给它一个图片文件,它就能把识别结果写入一个文本文件,在自己的项目里凑合着也能用哦——也算是一个万不得已的兜底方案。


http://www.kler.cn/a/283120.html

相关文章:

  • 标准C++ 字符串
  • Autosar CP 基于CAN的时间同步规范导读
  • 什么是数字图像?
  • 【真题笔记】21年系统架构设计师案例理论点总结
  • Rust 建造者模式
  • dapp获取钱包地址,及签名
  • 什么是单点登录
  • VUE3生命周期钩子
  • 微软在Edge浏览器中引入本地AI模型;苹果将于9月10日发布iPhone 16系列
  • Java 入门指南:初识 Java NIO
  • cmake,make,makefile之间的关系
  • cppbase阶段汇总
  • 零售数字化:基于会员、商品和导购的智能决策
  • 提升你的校招简历:推荐高质量C++项目示例!
  • 【openwrt-21.02】T750 openwrt-21.02 Linux-5.4.238 input子系统----gpio-keys实现分析
  • 机器学习在医学中的应用
  • 自制深度学习推理框架之卷积和池化算子的设计与实现
  • 力扣题/图论/实现 Trie (前缀树)
  • 【Redis】Redis 持久化 -- RDB AOF
  • 02.标准化编程规范
  • 依赖注入:原则、实践与Spring中的应用
  • 高级java每日一道面试题-2024年8月26日-框架篇[Web篇]-如何查询网站在线人数?
  • 【并发编程】从AQS机制到同步工具类
  • SpringBoot依赖之Spring Data Redis的功能抽离公共服务
  • Logrus IT的质量评估门户如何提高游戏本地化质量:案例研究
  • 学习日志8.21--防火墙NAT