当前位置: 首页 > article >正文

Python-Pdf转Markdown

使用pdfminer.six+markdownify

  • pdfminer.six可以提取Pdf文本内容
  • markdownify可以将文本内容写markdown文件
安装
pip install pdfminer.six 
pip install markdownify
实现
from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()

http://www.kler.cn/a/463521.html

相关文章:

  • 双指针算法详解
  • 最新MySQL面试题(2025超详细版)
  • 库伦值自动化功耗测试工具
  • 设计模式 创建型 原型模式(Prototype Pattern)与 常见技术框架应用 解析
  • 【前端系列】Pinia状态管理库
  • ES_如何设置ElasticSearch 8.0版本的匿名访问以及https_http模式的互相切换
  • sudo mkdir -p /etc/docker其中的 -p 什么意思?
  • ubuntu 如何使用vrf
  • PyTorch快速入门教程【小土堆】之torchvision中的数据集使用
  • 1月第四讲:Java Web学生自习管理系统
  • C++ 基础概念: 未定义行为(Undefined Behavior)
  • 计算机创造的奇迹——C语言
  • GitHub Copilot免费上线!快速上手指南与功能解析
  • rouyi(前后端分离版本)配置
  • 【每日学点鸿蒙知识】动画主动停止、右滑左滑收拾、登录页跳转、Web组件拉起相册、怎么禁止侧滑
  • 快速增加ppt撤回次数的方法
  • 工厂模式与抽象工厂模式在Unity中的实际应用案例
  • mapper文件的解释
  • 【数据结构】数据结构简要介绍
  • C++并行处理支持库 之六
  • Oracle Dataguard(主库为 Oracle 11g 单节点)配置详解(3):配置备用数据库
  • 慧集通iPaaS集成平台低代码培训-基础篇
  • WebApi使用 (.Net Framework版)
  • 【AIGC】COT思维链:让AI学会拆解问题,像人一样思考
  • 【golang】go errors 处理错误追踪打印堆栈信息
  • idea 开发Gradle 项目