python pytesseract库,ocr
pytesseract
-
安装pytesseract-ocr
mac:
//先安装依赖库libpng, jpeg, libtiff, leptonica brew install leptonica //安装tesseract的同时安装训练工具 brew install --with-training-tools tesseract //安装tesseract的同时安装所有语言,语言包比较大,如果安装的话时间较长,建议不安装,按需选择 brew install --all-languages tesseract //安装tesseract,并安装训练工具和语言 brew install --all-languages --with-training-tools tesseract //只安装tesseract,不安装训练工具 brew install tesseract
win:
安装包地址:https://github.com/UB-Mannheim/tesseract/wiki
配置环境变量
安装依赖包:
pip install pytesseract
pip install pillow
-
下载语言库
chi_sim.traineddata
:中文简体eng.traineddata
:英文https://github.com/tesseract-ocr/tessdata
-
使用
from PIL import Image import pytesseract text = pytesseract.image_to_string(Image.open('./eng.png') ,lang='eng' # 指定语言,chi_sim为简体中文 ) print(text)