word文档提取信息
目录
- 一、说明
- 二、Aspose-words方式
-
- 2.1、Aspose-words介绍
- 2.2、Aspose-words使用说明
- 2.3、Aspose-words解析核心代码
一、说明
项目中遇到这样的一个需求问题:“一个docx文档,用户根据关键词能搜索定位到文档的哪一页”。docx文档主要有文本、表格、图片、附件这几类组合,为了达到高精度要求,表格、图片、附件等附带的内容也要能够搜索定位到具体位置,那么,对docx文档的每一页要收集上述几类的数据,以便后续功能扩展。
以上就是这个需求的核心诉求,针对上面的问题,首先我们要解决的是:
(1)、如何精准的对docx文档按照页进行精准提取出文本、图片、表格等位置/信息;
(2)、对图片中文字信息进行提取;
上述2个问题,我们逐步去分析。
第一个问题:“如何精准的对docx文档按照页进行精准提取出文本、图片、表格等位置/信息”。
针对这个问题,该博客文章解析提取docx文档 已经介绍了几种方法,但仍然存在问题:文本不能按页解析读取;图片在哪一页位置无法定位等等。现提供一种新的解决方案,能够较好的解决或兼容上面问题,以便满足实际搜索业务需要。
第二个