当前位置: 首页 > article >正文

基于MinerU的PDF解析API

基于MinerU的PDF解析API

- MinerU的GPU镜像构建
- 基于FastAPI的PDF解析接口

支持一键启动,已经打包到镜像中,自带模型权重,支持GPU推理加速,GPU速度相比CPU每页解析要快几十倍不等

主要功能

  • 删除页眉、页脚、脚注、页码等元素,保持语义连贯
  • 对多栏输出符合人类阅读顺序的文本
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台

具体原理

请见PDF-Extract-Kit:https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md
PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。为此,我们将PDF内容提取工作进行拆解:

  • 布局检测:使用LayoutLMv3模型进行区域检测,如图像,表格,标题,文本等;
  • 公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;
  • 公式识别:使用UniMERNet进行公式识别;
  • 表格识别:使用StructEqTable进行表格识别;
  • 光学字符识别:使用PaddleOCR进行文本识别;

镜像地址:

阿里云地址:docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru:0.2-models

dockerhub地址:docker pull quincyqiang/mineru:0.2-models

启动命令:

docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models

具体截图请见博客:https://blog.csdn.net/yanqianglifei/article/details/141979684

启动日志:

输入参数:

访问地址:

http://localhost:8888/docs

http://127.0.01:8888/docs

解析效果:

返回内容字段包括:dict_keys([‘layout’, ‘info’, ‘content’])
其中content是一个字典列表:

{
  'type': 'text', 
  'text': '现在我们知道:价值实体就是劳动;劳动量的尺度就是劳动持续时间。', 
  'page_idx': 5
}

http://www.kler.cn/a/300148.html

相关文章:

  • 【线性代数】列主元法求矩阵的逆
  • Arweave的出块原理
  • 用JAVA写算法之输入输出篇
  • cuda从零开始手搓PB神经网络
  • Mysql数据库锁
  • 总结5..
  • 面试必问的7大测试分类!一文说清楚!
  • [算法]单调栈解法
  • 一文说清什么是数据仓库
  • Linux之ebpf(3)uprobe与ebpf
  • Flex弹性布局常用的属性解析与分类
  • 解决 git 不是内部或外部命令,也不是可运行的程序
  • 828华为云征文|几分钟,即可在华为云Flexus X服务器部署安全稳定的——水果生鲜商城配送小程序
  • 在职研生活学习--20240906
  • 旅游景区生活污水处理设备处理工艺和用途
  • HarmonyOS开发5.0【骨架屏】 app界面制作
  • 测试微信发朋友圈:功能、界面/易用性、中断、网络、兼容性、安全性、性能测试
  • 性能测试经典案例解析——政务查询系统
  • k8s的应用
  • 基于Ant-Design-Vue设计的配置化表单
  • curl和ping
  • 【leetcode C++】 动态规划
  • lamp的脚本部署
  • 【CAPL实战】解决调用LIN函数不生效问题
  • [笔记]电参数测量的现有方案
  • Cesium 展示——视角漫游飞行效果