当前位置: 首页 > article >正文

用大模型或者预训练模型对图片进行OCR

背景:使用大模型或者预训练模型(比如来自huggingface上的模型)对图片进行OCR,并将识别结果标记在图片原文的下方。

愿我们终有重逢之时,而你还记得我们曾经讨论的话题。

QQ group 868373192

QQ second group 277356808

要使用预训练模型对图片进行OCR(光学字符识别)并将识别结果标记在图片原文的下方,你可以使用Hugging Face上的`transformers`库和`pytesseract`库。以下是一个完整的代码示例,展示了如何实现这一功能。

### 1. 安装必要的库

首先,确保你已经安装了以下库:

```bash
pip install transformers pytesseract pillow
```

### 2. 代码实现

```python
import pytesseract
from PIL import Image, ImageDraw, ImageFont
from transformers import TrOCRProcessor, VisionEncoderDecoderModel

# 加载预训练的TrOCR模


http://www.kler.cn/news/357816.html

相关文章:

  • Elasticsearch是做什么的?
  • python中堆的用法
  • C++学习路线(二十)
  • 大模型~合集14
  • vue3--自定义 dialog
  • 【重学 MySQL】六十七、解锁检查约束,守护数据完整性
  • 从零开始学PHP之安装开发环境
  • Android Jetpack 之再谈 ViewModel
  • 2024全国大学生软件测试大赛-校内练习题-京东、网易(功能)
  • 3d NMDS多样性分析图 R语言
  • 微信小程序中的文件查看方法
  • Vulnhub打靶-matrix-breakout-2-morpheus
  • 信息学奥赛 csp-j 2023 普及组 第一轮试题及答案
  • Debian12离线部署docker详细教程
  • HDFS详细分析
  • 英飞达医学影像存档与通信系统 WebUserLogin.asmx 信息泄露漏洞复现
  • 视频转文字工具搜集
  • 深入探索 APKTool:Android 应用的反编译与重打包工具
  • 新基建下的园区智慧化变革 | 科技驱动未来开放式智慧园区
  • Ubuntu20.04下安装多CUDA版本,以及后续切换卸载