当前位置：首页 > article >正文

OCR图片中文字识别(Tess4j)

article 2025/2/28 15:26:33

文章目录

- - Tess4J
  - 下载 tessdata
  - Java 使用Tess4j 的 demo

Tess4J

Tess4J 是 Tesseract OCR 引擎的 Java 封装库，它让 Java 项目更轻松地实现 OCR（光学字符识别）功能。

下载 tessdata

下载地址：https://github.com/tesseract-ocr/tesseract/releases

看网上教程，要下载相应的语言包，下 chi_sim.traineddata 即可
在这里插入图片描述

Java 使用Tess4j 的 demo

在 pom.xml 中加入以下依赖：

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.4</version>
</dependency>

写一个main方法，使用 Tesseract OCR 引擎对图像进行文字识别

public class OcrExample {
    public static void main(String[] args) {
        // 设置图片文件路径
        File imageFile = new File("D:\\1.png");

        // Tesseract 是 Tess4J 提供的 OCR 引擎类，它封装了对 Tesseract OCR 引擎的调用
        ITesseract instance = new Tesseract();

        try {
            // 设置tessdata路径 最好写绝对路径
            instance.setDatapath("D:\\app\\tool\\tesseract-ocr\\tessdata");
            // 选择简体中文 Chinese simplified
            instance.setLanguage("chi_sim");

            // 进行OCR识别
            String result = instance.doOCR(imageFile);

            System.out.println("识别结果: " + result);
        } catch (Exception e) {
            System.out.println("OCR识别失败: " + e.getMessage());
        }
    }
}