当前位置: 首页 > article >正文

PDFToMarkdown

pdf转markdown

    • 安装Tesseract-OCR
    • 项目拉取
    • pytorch安装
    • 开始转换
      • 转换单个文件
      • 转换多个文件
    • 总结

github开源PDF转markdown
在这里插入图片描述

git clone https://github.com/VikParuchuri/marker.git

注意该项目有些包的语法需要python3.10,所以需要安装python3.10.
导入pycharm,下面选择取消
在这里插入图片描述

安装Tesseract-OCR

安装OCR工具
安装地址
这个从后面的实验来看,可以不安装,采用另外一个OCR工具。
在这里插入图片描述
选择另外的语言数据
在这里插入图片描述
在这里插入图片描述
语言包居然有310MB
首先进行进行脚本下载
在这里插入图片描述
安装Ghostscript
安装地址

https://github.com/ArtifexSoftware/ghostpdl-downloads/releases/

在这里插入图片描述

项目拉取

git clone

本着前人栽树,后人乘凉的原则,一键搞定所有包安装
在这里插入图片描述

在项目根目录下新建requirements.txt文件
在里面粘贴

torch==2.4.1+cu121
numpy==1.21.0
nougat-ocr
python-magic
python-magic-bin
python

http://www.kler.cn/news/343512.html

相关文章:

  • 如何使用ssm实现新冠病毒校园监控平台的设计与实现+vue
  • 【进阶OpenCV】 (8)--摄像头操作--->识别文档内容
  • Java->Map和Set
  • VMWare vsphere ESXi 6.7在线升级至7.0.3
  • 使用antdv的a-table行拖拽
  • 强化学习笔记之【SAC算法】
  • 学习笔记之指针进阶(10.11)
  • 数据库SQL 某字段按首字母排序_sql按首字母排序
  • 解决PyCharm 2023 Python Packages列表为空
  • 【Docker】03-自制镜像
  • LeetCode讲解篇之746. 使用最小花费爬楼梯
  • 基于SpringBoot+Vue+MySQL的装修公司管理系统
  • 滚雪球学Oracle[5.2讲]:数据库备份与恢复基础
  • MYSQL MVCC多版本并发控制机制与原理、可重复读/读已提交原理
  • vue3中自定义校验函数密码不生效问题
  • Carrier Aggregation 笔记
  • odoo16 视图(View)和界面布局(UI Layout)
  • STM32F407寄存器操作(DMA+SPI)
  • this,this指向
  • SpringBootWeb AOP