当前位置：首页 > article >正文

Python-Pdf转Markdown

article 2025/1/4 18:51:45

使用pdfminer.six+markdownify

pdfminer.six可以提取Pdf文本内容
markdownify可以将文本内容写markdown文件

安装

pip install pdfminer.six 
pip install markdownify

实现

from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf2markdown(pdf_path):
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

data = pdf_to_markdown("./22.pdf")
file = open('./example.md', 'w',  encoding='utf-8')
# 写入字符串到文件
file.write(data)
# 关闭文件
file.close()

http://www.kler.cn/a/463521.html

相关文章：

双指针算法详解

最新MySQL面试题(2025超详细版)

库伦值自动化功耗测试工具

设计模式创建型原型模式（Prototype Pattern）与常见技术框架应用解析

【前端系列】Pinia状态管理库

ES_如何设置ElasticSearch 8.0版本的匿名访问以及https_http模式的互相切换

sudo mkdir -p /etc/docker其中的 -p 什么意思？

ubuntu 如何使用vrf

PyTorch快速入门教程【小土堆】之torchvision中的数据集使用

1月第四讲：Java Web学生自习管理系统

C++ 基础概念: 未定义行为(Undefined Behavior)

计算机创造的奇迹——C语言

GitHub Copilot免费上线！快速上手指南与功能解析

rouyi(前后端分离版本)配置

【每日学点鸿蒙知识】动画主动停止、右滑左滑收拾、登录页跳转、Web组件拉起相册、怎么禁止侧滑

快速增加ppt撤回次数的方法

工厂模式与抽象工厂模式在Unity中的实际应用案例

mapper文件的解释

【数据结构】数据结构简要介绍

C++并行处理支持库之六

Oracle Dataguard（主库为 Oracle 11g 单节点）配置详解（3）：配置备用数据库

慧集通iPaaS集成平台低代码培训-基础篇

WebApi使用（.Net Framework版）

【AIGC】COT思维链：让AI学会拆解问题，像人一样思考

【golang】go errors 处理错误追踪打印堆栈信息

idea 开发Gradle 项目