当前位置: 首页 > article >正文

Chunkr: 在线PDF文档解析与OCR工具

介绍

1 版面分割模型

这部分属于另一个项目(pdf-document-layout-analysis)的内容,可以移步查看具体模型的介绍和训练过程。

1.1 机器学习模型
基于LIGHTGBM算法,并且只需要使用CPU资源,因此对硬件要求不高,速度快,但是只能处理文字类型的PDF。

1.2 VGT模型
能处理图片PDF,同时把版面内容识别为11种类型

   1: "Caption"
   2: "Footnote"
   3: "Formula"
   4: "List item"
   5: "Page footer"
   6: "Page header"
   7: "Picture"
   8: "Section header"
   9: "Table"
   10: "Text"
   11: "Title"

如果对表格、图片、手写内容的识别精度有要求,则需要使用该模型。

2 分割策略

上述模型能够为每一块区域生成一种对应的类型(如Title、Text等),默认按照Title -> Section header -> Other 这种层次结构进行分割和组合,如果遇到高于当前段中的层次或者段长度超过限制(target_chunk_length),则进行分割。

3 OCR策略

chunkr使用的OCR为Textract,的OCR策略分为如下三种:
● Auto:对于扫描件,则全部进行OCR;对于文字PDF,则只有图片和表格进行OCR
● All:开启所有组件的OCR
● Off:关闭所有组件的OCR

用法

1 注册账号

在官网完成账号注册,获取API KEY
在这里插入图片描述

有1000页的快速处理额度和500页的高精度处理额度

2 API处理

2.1 创建任务

curl -X POST https://api.chunkr.ai/api/v1/task \
-H "Content-Type: multipart/form-data" \
-H "Authorization: ${YOUR_API_KEY}" \
-F "file=@/path/to/your/file" \
-F "model=HighQuality" \
-F "target_chunk_length=512" \
-F "ocr_strategy=Auto"

任务为异步调用,可通过返回的任务id查看处理结果

2.2 获取结果

curl -X GET https://api.chunkr.ai/api/v1/task/${TASK_ID} \
-H "Authorization: ${YOUR_API_KEY}"

3 在线处理

在这里插入图片描述

在这里可以直接拖拽、上传PDF文档,配置参数(与API调用一致)、实时查看处理结果

使用体会

在试用过程中发现版面分析部分把一部分简单的Text区域识别为表格或者图片,猜测可能是因为模型的阈值不可控制导致的。这种使用方法比较适合普通用户,对于开发者或者需要调整文档识别结果的人来说可能不是很友好,不过有1500页的免费额度使用还是挺香的~


http://www.kler.cn/news/365673.html

相关文章:

  • 【永中软件-注册/登录安全分析报告】
  • 语音识别——使用Vosk进行语音识别
  • 当有违法数据时,浏览器不解析,返回了undefined,导致数据不解析
  • 线上遇到的问题记录(说多了都是泪)
  • CSS3 动画相关属性实例大全(三)(columns、filter、flex、flex-basis 、flex-grow、flex-shrink属性)
  • 基于KV260的基础视频链路通路(MIPI+Demosaic+VDMA)
  • 认识区块链,认知区块链——DePIN
  • 数据治理与主数据管理:现代企业数据管理的核心
  • 大语言模型推理源码解读(基于llama3模型)
  • 基于docker 部署redis
  • 解决: java.lang.RuntimeException: can not run elasticsearch as root
  • 034 RabbitMQ简介 安装 SpringBoot整合RabbitMQ框架搭建
  • STMicroelectronics意法半导体车规芯片系列--亿配芯城(ICgoodFind)
  • 非接触式竖向位移、水平位移视频实时在线监测的设备分类及选型
  • 作业5-laravel 操作数据库
  • docker集成Nginx和Mysql (教程)
  • 安达发|氢能源产业与APS生产排程软件的结合
  • 笔记本电脑充不进去电怎么回事 笔记本电脑充不上电解决
  • Elastic Stack - FileBeat 入门浅体验
  • ChartCheck: Explainable Fact-Checking over Real-World Chart Images
  • MongoDB简单学习
  • 【软件工程】软件工程入门
  • 论文速读:YOLO-G,用于跨域目标检测的改进YOLO(Plos One 2023)
  • 人脸应用实例:性别年龄预测
  • AMD锐龙8845HS+780M核显 虚拟机安装macOS 15 Sequoia 15.0.1 (2024.10)
  • 中国自动驾驶时代记:技术、理想和“真经路”