pptx文档提取信息
目录
- 一、前言
- 二、python-pptx提取核心代码
- 三、LibreOffice 转换pdf再提取的核心代码
一、前言
pptx文档提取解析常用的库。
-
如果只需要解析 .pptx 的文本、表格、图片,推荐使用 python-pptx(开源,轻量级)。 如果需要高性能、支持
-
.ppt、动画、格式转换,推荐 Aspose.Slides(收费)。
-
如果需要 PPTX 转 PDF 或者 HTML,适用于 Linux
服务器,推荐 LibreOffice 方案。 -
如果在 Windows 上运行,并且 PowerPoint 已安装,可以用 comtypes
直接调用 PowerPoint 解析。
二、python-pptx提取核心代码
def parse_pptx_file(pptx_