当前位置: 首页 > article >正文

本地高精度OCR!由GPT-4o-mini驱动的开源OCR!

如果你正在寻找一款高精度、本地运行、支持复杂布局的 OCR 工具,那么 Zerox OCR 无疑是一个极佳的选择。

Zerox OCR 会先将 PDF 文件转换成图像,再由 GPT-4o-mini模型识别并输出 Markdown,最后将所有页面对应的 Markdown 结果,汇总在一起形成完整的 Markdown 文档。

它不仅支持零样本 OCR,还可以轻松处理表格、图表等复杂布局,最将 OCR 结果以 Markdown 格式输出,优化了信息提取的便捷性。

核心优势

1、零样本 OCR

使用 GPT-4o-mini 模型进行文本识别,能够处理完全陌生的 PDF、图片等文档类型,不需要事先训练数据,即可提供高精度的 OCR 结果

2、Markdown 输出格式

在 OCR 转换过程中,Zerox 将每个识别的页面转化为简洁的 Markdown 格式,方便对文本进行后期处理和整理。

对于开发者或文档处理人员来说,这种格式极具实用性,易于导入到其他系统中。

3、支持复杂文档

不仅仅是简单的文本,Zerox 还可以处理包含表格、图表等复杂布局的文件。无论是扫描版 PDF 还是其他格式,Zerox 都可以对它们进行 OCR 识别,生成准确的文本内容。

4、本地运行与 API 支持

支持本地运行,无需担心隐私泄露问题。此外,它还提供了 API 接口,方便集成到你的应用中,提升业务流程的自动化和效率。

技术栈

  • Python

  • JavaScript

  • TypeScipt

工作流程

  • 提交文件:支持的文件格式包括 PDF、DOCX、图片等,你可以轻松提交多种格式的文件进行 OCR 处理。

  • 文件转图像:首先会将文档转换为图像,以便后续进行图像识别。

  • GPT-4o-mini 转换:每个生成的图像将被发送至 GPT-4o-mini 模型进行文本识别。

  • 汇总 Markdown:所有页面的 Markdown 结果被汇总成一个完整的 Markdown 文档,便于进一步处理和分析。

如何安装使用 Zerox?

Zerox OCR 除了提供有在线Demo可以使用,还提供有Node和Python的API包进行调用。

无需下载,即可在线体验 Zerox 的强大 OCR 能力

下面是以Python包安装方法及使用示例
pip install py-zerox

用法(必须先配置好GPT API 等必要参数):

from pyzerox import zerox
import os
import json
import asyncio

async def main():
    file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported

    ## process only some pages or all
    select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)

    output_dir = "./output_test" ## directory to save the consolidated markdown file
    result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
                        custom_system_prompt=custom_system_prompt,select_pages=select_pages, **kwargs)
    return result


# run the main function:
result = asyncio.run(main())

# print markdown result
print(result)

结果:

结语

Zerox OCR 是一款功能强大的本地开源工具,基于 GPT-4o-mini,能够高效处理复杂文档,并以 Markdown 格式输出,适合需要精确 OCR 处理的用户。无论你是开发者,还是需要处理大量文档的专业人士,Zerox OCR 都是一个值得一试的解决方案。

赶快下载试用,或体验在线版本,解锁文档处理的更多可能吧!

项目地址:https://github.com/getomni-ai/zerox

在线体验:https://getomni.ai/ocr-demo


http://www.kler.cn/a/448525.html

相关文章:

  • GESP CCF C++八级编程等级考试认证真题 2024年12月
  • LabVIEW电机控制中的主动消抖
  • 我的个人博客正式上线了!
  • 关于使用拓扑排序算法实现解析勾稽关系优先级的研究和实现
  • 一区牛顿-拉夫逊算法+分解+深度学习!VMD-NRBO-Transformer-GRU多变量时间序列光伏功率预测
  • 使用 Buildroot 构建带有 Avahi 支持的 Linux 系统
  • 【C++】哈希表实现
  • ‌Elasticsearch(es)自定义分词器,根据特殊符号分词或分词后保留特殊符号
  • 计算机基础知识——数据结构与算法(五)(山东省大数据职称考试)
  • Redis——缓存预热+缓存雪崩+缓存击穿+缓存穿透
  • python学opencv|读取图像(十八)使用cv2.line创造线段
  • js导出Excel(图片大小,数据转换,导出后面添加现在的时间 )
  • Vue的响应式基础
  • Go 语言并发实战:利用协程处理多个接口进行数据融合
  • 常耀斌:深度学习和大模型原理与实战(深度好文)
  • 【漫话机器学习系列】012.深度学习(Deep Learning)基础
  • Webpack的打包过程/打包原理/构建流程?
  • Unity Shader学习日记 part 1 基础知识
  • 广义正态分布优化算法(GNDO)Generalized Normal Distribution Optimization
  • LeetCode 力扣 热题 100道(二十)三数之和(C++)
  • Unity 6 Preview(预览版)新增功能
  • windows下srs流媒体服务器使用ffmpeg推流
  • 鸿蒙项目云捐助第十八讲云捐助我的页面下半部分的实现
  • c# iis 解决跨域问题
  • 对象克隆与单例模式的实现
  • 硬件工程师面试题 11-20