Ollama-OCR:利用视觉语言模型从图像中提取文本
Ollama-OCR利用视觉语言模型从图像中提取文本。
本文将介绍 Ollama-OCR 的关键特点、安装方法、快速开始指南以及输出格式的详细信息。
github:https://github.com/imanoop7/Ollama-OCR
需安装:ollama https://ollama.com/download
特点
-
支持多种视觉模型:Ollama-OCR 支持包括 LLaVA 7B 和 Llama 3.2 Vision 在内的视觉模型,这些模型能够处理实时和复杂文档的文本识别任务。
-
多种输出格式:支持输出格式包括 Markdown、纯文本、JSON、结构化数据和键值对格式。
-
用户友好的界面:提供拖放图片上传、实时处理、下载提取文本和图像预览等功能。
-
批量处理能力:支持并行处理多个图像,并能跟踪每个图像的处理进度。
整合包
https://pan.quark.cn/s/a22e24638212
快速开始
在使用 Ollama-OCR 之前,需要安装 Ollama 并拉取所需的模型:
ollama pull llama3.2-vision:11b
输出格式详情
-
Markdown 格式:输出为包含从图像中提取的文本的 Markdown 字符串。
-
文本格式:输出为包含从图像中提取的文本的纯文本字符串。
-
JSON 格式:输出为包含从图像中提取的文本的 JSON 对象。
-
结构化格式:输出为包含从图像中提取的文本的结构化对象。
-
键值格式:输出为包含从图像中提取的文本的字典。
Streamlit Web 应用程序
Ollama-OCR 还提供了一个基于 Streamlit 的 Web 应用程序,支持批量处理,具有用户友好的界面,包括拖放图片上传、实时处理、下载提取文本和图像预览等功能。