当前位置: 首页 > article >正文

【大模型微调】pdf转markdown

目前市面上大部分都是pdf文档,要想转换成能训练的文本,调研了各种工具。

觉得MinerU确实不错。

参考此链接进行操作

MinerU/docs/README_Ubuntu_CUDA_Acceleration_en_US.md at master · opendatalab/MinerU · GitHub

需要注意的几个点:

1. 使用root账户安装的,配置文件在此处  /root/magic-pdf.json

2. 配置文件cuda,使能表格的配置文件参考为

{
    "bucket_info": {
        "bucket-name-1": [
            "ak",
            "sk",
            "endpoint"
        ],
        "bucket-name-2": [
            "ak",
            "sk"

http://www.kler.cn/a/420901.html

相关文章:

  • Language Translation with TorchText
  • Maven 详解
  • NLP 的研究任务
  • D87【python 接口自动化学习】- pytest基础用法
  • CentOS7:MySQL 8.0.36升级到8.0.40
  • 深入浅出:开发者如何快速上手Web3生态系统
  • QT-thread2种方式选择的优劣对比
  • uniapp 生成二维码
  • 量化交易系统开发-实时行情自动化交易-8.9.通达信平台
  • docker部署RustDesk自建服务器
  • 【自用】管材流转项目前端重部署流程 vue2 webpackage4 vuecli4
  • Webpack开发模式及处理样式资源
  • Hyperf jsonrpc
  • 利用 Redisson 实现分布式主键生成
  • echarts 实时 vue 使用方法
  • Python学习------第十五天
  • 12.02 深度学习-卷积
  • 东方隐侠网安瞭望台第8期
  • 手游手游手游手游手游手游手游
  • c语言基础之二维数组
  • node.js基础学习-fs模块-文件操作(六)
  • 深度学习常用测试命令解释
  • 数据分析:探索数据背后的秘密与挑战
  • 3d/伪3d统计图形
  • ISO26262-(Timing Monitoring)在多核MCU的TPU上功能安全ASILB与ASILD有什么区别
  • MacOS 命令行详解使用教程