当前位置：首页 > article >正文

本地高精度OCR！由GPT-4o-mini驱动的开源OCR！

article 2024/12/23 23:16:09

如果你正在寻找一款高精度、本地运行、支持复杂布局的 OCR 工具，那么 Zerox OCR 无疑是一个极佳的选择。

Zerox OCR 会先将 PDF 文件转换成图像，再由 GPT-4o-mini模型识别并输出 Markdown，最后将所有页面对应的 Markdown 结果，汇总在一起形成完整的 Markdown 文档。

它不仅支持零样本 OCR，还可以轻松处理表格、图表等复杂布局，最将 OCR 结果以 Markdown 格式输出，优化了信息提取的便捷性。

核心优势

1、零样本 OCR

使用 GPT-4o-mini 模型进行文本识别，能够处理完全陌生的 PDF、图片等文档类型，不需要事先训练数据，即可提供高精度的 OCR 结果。

2、Markdown 输出格式

在 OCR 转换过程中，Zerox 将每个识别的页面转化为简洁的 Markdown 格式，方便对文本进行后期处理和整理。

对于开发者或文档处理人员来说，这种格式极具实用性，易于导入到其他系统中。

3、支持复杂文档

不仅仅是简单的文本，Zerox 还可以处理包含表格、图表等复杂布局的文件。无论是扫描版 PDF 还是其他格式，Zerox 都可以对它们进行 OCR 识别，生成准确的文本内容。

4、本地运行与 API 支持

支持本地运行，无需担心隐私泄露问题。此外，它还提供了 API 接口，方便集成到你的应用中，提升业务流程的自动化和效率。

技术栈

Python
JavaScript
TypeScipt

工作流程

提交文件：支持的文件格式包括 PDF、DOCX、图片等，你可以轻松提交多种格式的文件进行 OCR 处理。
文件转图像：首先会将文档转换为图像，以便后续进行图像识别。
GPT-4o-mini 转换：每个生成的图像将被发送至 GPT-4o-mini 模型进行文本识别。
汇总 Markdown：所有页面的 Markdown 结果被汇总成一个完整的 Markdown 文档，便于进一步处理和分析。

如何安装使用 Zerox?

Zerox OCR 除了提供有在线Demo可以使用，还提供有Node和Python的API包进行调用。

无需下载，即可在线体验 Zerox 的强大 OCR 能力

下面是以Python包安装方法及使用示例

pip install py-zerox

用法（必须先配置好GPT API 等必要参数）：

from pyzerox import zerox
import os
import json
import asyncio

async def main():
    file_path = "https://omni-demo-data.s3.amazonaws.com/test/cs101.pdf" ## local filepath and file URL supported

    ## process only some pages or all
    select_pages = None ## None for all, but could be int or list(int) page numbers (1 indexed)

    output_dir = "./output_test" ## directory to save the consolidated markdown file
    result = await zerox(file_path=file_path, model=model, output_dir=output_dir,
                        custom_system_prompt=custom_system_prompt,select_pages=select_pages, **kwargs)
    return result


# run the main function:
result = asyncio.run(main())

# print markdown result
print(result)