当前位置：首页 > article >正文

Ollama-OCR：利用视觉语言模型从图像中提取文本

article 2024/12/24 11:02:40

Ollama-OCR利用视觉语言模型从图像中提取文本。

本文将介绍 Ollama-OCR 的关键特点、安装方法、快速开始指南以及输出格式的详细信息。

github:https://github.com/imanoop7/Ollama-OCR

需安装:ollama https://ollama.com/download

特点

支持多种视觉模型：Ollama-OCR 支持包括 LLaVA 7B 和 Llama 3.2 Vision 在内的视觉模型，这些模型能够处理实时和复杂文档的文本识别任务。
多种输出格式：支持输出格式包括 Markdown、纯文本、JSON、结构化数据和键值对格式。
用户友好的界面：提供拖放图片上传、实时处理、下载提取文本和图像预览等功能。
批量处理能力：支持并行处理多个图像，并能跟踪每个图像的处理进度。

整合包

https://pan.quark.cn/s/a22e24638212

快速开始

在使用 Ollama-OCR 之前，需要安装 Ollama 并拉取所需的模型：

ollama pull llama3.2-vision:11b

输出格式详情

Markdown 格式：输出为包含从图像中提取的文本的 Markdown 字符串。
文本格式：输出为包含从图像中提取的文本的纯文本字符串。
JSON 格式：输出为包含从图像中提取的文本的 JSON 对象。
结构化格式：输出为包含从图像中提取的文本的结构化对象。
键值格式：输出为包含从图像中提取的文本的字典。

Streamlit Web 应用程序

Ollama-OCR 还提供了一个基于 Streamlit 的 Web 应用程序，支持批量处理，具有用户友好的界面，包括拖放图片上传、实时处理、下载提取文本和图像预览等功能。

http://www.kler.cn/a/449214.html

相关文章：

PyTorch 神经网络回归（Regression）任务：关系拟合与优化过程

Redis篇--常见问题篇6--缓存一致性1（Mysql和Redis缓存一致，更新数据库删除缓存策略）

探寻快速排序的局限性及其优化策略

Linux 中的 cat 命令：使用、原理与源码解析

docker 容器的基本使用

叉车作业如何确认安全距离——UWB测距防撞系统的应用

【网络云计算】2024第51周-每日【2024/12/19】小测-理论-如何实际一个校园网-简要列出

内网IP段介绍与汇总

分布式协同 - 分布式事务_TCC解决方案

NS3学习——队列管理机制

springboot中Jackson库和jsonpath库的区别和联系。

时间复杂度和空间复杂度理解

AOP切点表达式之方法表达式execution

FreeSwitch中启用WebRTC

软件测试经典面试题（答案解析+文档）

最优二叉搜索树【东北大学oj数据结构10-4】C++

Maven构建Java项目ES项目

【总结(三)】单片机重点知识总结记录（串口重定向+按键消抖+延时）

B6充电器模式

Net9为PDF文字替换，使用Spire.PDF版本10.12.4.1360

Paddle OCR 中英文检测识别 - python 实现

PostgreSQL编译安装教程

C++ 的IO流

如何找到一篇文献/论文/会议的引用，以及分清自己使用的引用格式

20241230 机器学习ML -（1）线性回归（scikitlearn）

标贝科技受邀出席2024ADD数据应用场景大会共议数据要素发展新契机