当前位置: 首页 > article >正文

Ollama-OCR:利用视觉语言模型从图像中提取文本

Ollama-OCR利用视觉语言模型从图像中提取文本。

本文将介绍 Ollama-OCR 的关键特点、安装方法、快速开始指南以及输出格式的详细信息。

github:https://github.com/imanoop7/Ollama-OCR

需安装:ollama https://ollama.com/download

特点

  • 支持多种视觉模型:Ollama-OCR 支持包括 LLaVA 7B 和 Llama 3.2 Vision 在内的视觉模型,这些模型能够处理实时和复杂文档的文本识别任务。

  • 多种输出格式:支持输出格式包括 Markdown、纯文本、JSON、结构化数据和键值对格式。

  • 用户友好的界面:提供拖放图片上传、实时处理、下载提取文本和图像预览等功能。

  • 批量处理能力:支持并行处理多个图像,并能跟踪每个图像的处理进度。

整合包

https://pan.quark.cn/s/a22e24638212

快速开始

在使用 Ollama-OCR 之前,需要安装 Ollama 并拉取所需的模型:

ollama pull llama3.2-vision:11b

输出格式详情

  • Markdown 格式:输出为包含从图像中提取的文本的 Markdown 字符串。

  • 文本格式:输出为包含从图像中提取的文本的纯文本字符串。

  • JSON 格式:输出为包含从图像中提取的文本的 JSON 对象。

  • 结构化格式:输出为包含从图像中提取的文本的结构化对象。

  • 键值格式:输出为包含从图像中提取的文本的字典。

Streamlit Web 应用程序

Ollama-OCR 还提供了一个基于 Streamlit 的 Web 应用程序,支持批量处理,具有用户友好的界面,包括拖放图片上传、实时处理、下载提取文本和图像预览等功能。


http://www.kler.cn/a/449214.html

相关文章:

  • PyTorch 神经网络回归(Regression)任务:关系拟合与优化过程
  • Redis篇--常见问题篇6--缓存一致性1(Mysql和Redis缓存一致,更新数据库删除缓存策略)
  • 探寻快速排序的局限性及其优化策略
  • Linux 中的 cat 命令:使用、原理与源码解析
  • docker 容器的基本使用
  • 叉车作业如何确认安全距离——UWB测距防撞系统的应用
  • 【网络云计算】2024第51周-每日【2024/12/19】小测-理论-如何实际一个校园网-简要列出
  • 内网IP段介绍与汇总
  • 分布式协同 - 分布式事务_TCC解决方案
  • NS3学习——队列管理机制
  • springboot中Jackson库和jsonpath库的区别和联系。
  • 时间复杂度和空间复杂度理解
  • AOP切点表达式之方法表达式execution
  • FreeSwitch中启用WebRTC
  • 软件测试经典面试题(答案解析+文档)
  • 最优二叉搜索树【东北大学oj数据结构10-4】C++
  • Maven构建Java项目ES项目
  • 【总结(三)】单片机重点知识总结记录(串口重定向+按键消抖+延时)
  • B6充电器模式
  • Net9为PDF文字替换,使用Spire.PDF版本10.12.4.1360
  • Paddle OCR 中英文检测识别 - python 实现
  • PostgreSQL编译安装教程
  • C++ 的IO流
  • 如何找到一篇文献/论文/会议的引用,以及分清自己使用的引用格式
  • 20241230 机器学习ML -(1)线性回归(scikitlearn)
  • 标贝科技受邀出席2024ADD数据应用场景大会 共议数据要素发展新契机