当前位置: 首页 > article >正文

在windows10上基于Python部署marker,实现PDF转markdown文件(保姆级)

前言

网上冲浪了五天,查阅了200+blog,与deepseek对话battle了八次,解决不了问题,我就看源码你,没想到,还真解决了问题,实现了预期目标。

win环境下部署与Linux等其他系统环境不同,我个人的电脑也没有安装NVIDIA显卡,以下所用的插件版本会在文中列出。

一、准备工作

  1. 安装 Miniconda

    • 官网下载:https://docs.conda.io/en/latest/miniconda.html
    • 清华源下载:清华大学开源软件镜像站 | Tsinghua Open Source Mirror(我用的)
    • 选择Python 3.10+的Windows版本,与系统位数一致的版本安装(建议默认勾选添加环境变量)我装的是Miniconda3-latest-Windows-x86_64。
  2. 安装系统级依赖

    • Poppler(PDF解析工具):
      • 下载地址:Releases · oschwartz10612/poppler-windows · GitHub
      • 解压到 G:\pdf2md_package(路径可自定义,建议把这一套全放一个文件夹) 或其他无空格路径,将 G:\pdf2md_package\poppler2408\Library\bin 添加到系统PATH
      • 这是我安装后的path。
    • Tesseract OCR(可选,用于OCR识别):
      • 下载地址:Home · UB-Mannheim/tesseract Wiki · GitHub
      • 安装时勾选中文语言包,记住安装路径(如 G:\pdf2md_package\Tesseract-OCR

二、创建虚拟环境

conda create -n marker_env python=3.10  //  还未试过3.12,理论上3.12会向下兼容

conda env list //  查看创建的虚拟环境是否成功

conda activate marker_env  //  激活环境

三、安装PyTorch、Marker

1、安装PyTorch(CPU版本,无显卡用户用此命令):

pip3 install torch torchvision torchaudio

有显卡的、可以在官网上的Start Locally | PyTorch,根据自己电脑的配置,选择后在箭头处复制语句后执行。(我的是图中这条命令行)

 2、安装Marker,耐心等待插件安装。

pip install marker-pdf

四、测试文件转换

  1. 准备一个PDF文件,路径不含中文或空格,如 G:\a.pdf

  2. 我的文件夹布局如图。

  3. 执行转换命令:

marker_single G:\a.pdf --languages eng+chi_sim --llm_service cpu --output_dir G:\aaa

命令的解释:

        命令里没有其他博主的--batch_multiplier 2,有这个的都是有显卡的;

       marker_single:调用marker_single执行转换操作;

       G:\a.pdf:需要转换的文件的所在目录(可自定义);

       --languages eng+chi_si:设置语言,可查官网或帮助,支持的语言还是有蛮多的;

       --llm_service cpu:强制使用CPU,也可以不加此句;

       --output_dir:此句最关键,在新版本的环境部署中,marker_single命令的入参形式有了变化,此前多位博主的测试语句是(marker_single G:\a.pdf G:\aaa --batch_multiplier 2 --max_pages 10),我试过多次都报错,奇奇怪怪的错误一堆,让我白花了三天时间。通过执行marker_single --help,看入参说明,看到一个output_dir,就去测试,转换后文件的存放目录,需要通过output_dir指定,而不是这样G:\a.pdf G:\aaa,紧跟着需要转换文件路径的后面。

        G:\aaa:文件转换后的存放目录(可自定义)。

给我启发的几篇blog

如果以上步骤未能成功,建议看下以下几篇blog,也许能带来启发,解决问题。

Windows安装Marker_marker安装-CSDN博客

Marker把PDF转换成markdown格式输出_marker-pdf-CSDN博客

Miniconda在Windows上的安装与使用_miniconda windows-CSDN博客

marker-pdf遇到hugging face网络问题的解决_marker huggingface-CSDN博客

一个好用的小工具 | 将PDF转换为Markdown格式-CSDN博客

AI模型部署:Triton+Marker部署PDF转markdown服务_marker-pdf-CSDN博客


http://www.kler.cn/a/558001.html

相关文章:

  • ue5地面上出现preview字样
  • 小程序(物流、快递),接入GPS北斗获取路线以及当前车辆位置
  • 【后端】gitHub访问速度太慢解决办法
  • UE5.3 C++ TArray系列(一)
  • 【Python爬虫(43)】云端探秘:Python分布式爬虫部署攻略
  • Jenkins 自动构建Job
  • 14.5 基于LangChain重构Auto-GPT:新一代自主智能体架构设计实践
  • 当前 Java Web 开发的最新实现方式
  • 【复习】计算机网络
  • Spring Boot Validation 接口校验:从零到掌握
  • STM32 HAL库I2C函数使用详解:以MPU6050传感器为例
  • Windows 系统下,使用 PyTorch 的 DataLoader 时,如果 num_workers 参数设置为大于 0 的值,报错
  • Apache-CC6链审计笔记
  • PWR电源控制详解教程文章 ~内置初始化驱动代码!!!
  • 网络安全风险事件排名 网络安全事件划分
  • 网络运维学习笔记 012网工初级(HCIA-Datacom与CCNA-EI)某机构新增:GRE隧道与EBGP实施
  • 如何查询网站是否被百度蜘蛛收录?
  • CSS中块级格式化上下文(BFC)详解
  • windwos与linux环境下Iperf3带宽测试工具的安装、使用
  • 集合 数据结构 泛型