当前位置：首页 > article >正文

用大模型或者预训练模型对图片进行OCR

article 2024/10/23 0:29:09

背景：使用大模型或者预训练模型（比如来自huggingface上的模型）对图片进行OCR，并将识别结果标记在图片原文的下方。

QQ group 868373192

QQ second group 277356808

要使用预训练模型对图片进行OCR（光学字符识别）并将识别结果标记在图片原文的下方，你可以使用Hugging Face上的`transformers`库和`pytesseract`库。以下是一个完整的代码示例，展示了如何实现这一功能。

### 1. 安装必要的库

首先，确保你已经安装了以下库：

```bash
pip install transformers pytesseract pillow
```

### 2. 代码实现

```python
import pytesseract
from PIL import Image, ImageDraw, ImageFont
from transformers import TrOCRProcessor, VisionEncoderDecoderModel

# 加载预训练的TrOCR模

Elasticsearch是做什么的？

python中堆的用法

C++学习路线（二十）

大模型~合集14

vue3--自定义 dialog

从零开始学PHP之安装开发环境

Android Jetpack 之再谈 ViewModel

3d NMDS多样性分析图 R语言

微信小程序中的文件查看方法

Vulnhub打靶-matrix-breakout-2-morpheus

Debian12离线部署docker详细教程

HDFS详细分析

视频转文字工具搜集