OCR图片中文字识别(Tess4j)
文章目录
- Tess4J
- 下载 tessdata
- Java 使用Tess4j 的 demo
Tess4J
Tess4J 是 Tesseract OCR 引擎的 Java 封装库,它让 Java 项目更轻松地实现 OCR(光学字符识别)功能。
下载 tessdata
下载地址:https://github.com/tesseract-ocr/tesseract/releases
看网上教程,要下载相应的语言包,下 chi_sim.traineddata
即可
Java 使用Tess4j 的 demo
在 pom.xml
中加入以下依赖:
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.5.4</version>
</dependency>
写一个main方法,使用 Tesseract OCR 引擎对图像进行文字识别
public class OcrExample {
public static void main(String[] args) {
// 设置图片文件路径
File imageFile = new File("D:\\1.png");
// Tesseract 是 Tess4J 提供的 OCR 引擎类,它封装了对 Tesseract OCR 引擎的调用
ITesseract instance = new Tesseract();
try {
// 设置tessdata路径 最好写绝对路径
instance.setDatapath("D:\\app\\tool\\tesseract-ocr\\tessdata");
// 选择简体中文 Chinese simplified
instance.setLanguage("chi_sim");
// 进行OCR识别
String result = instance.doOCR(imageFile);
System.out.println("识别结果: " + result);
} catch (Exception e) {
System.out.println("OCR识别失败: " + e.getMessage());
}
}
}
图片:
结果: