当前位置: 首页 > article >正文

如何判断一个 PDF 文件是否具有“结构化内容”?

由于人们希望让 PDF 文件更易访问并能够从中提取内容(不仅仅是查看),Adobe 添加了一项称为“标记内容”(Marked Content)的功能。这使得标记的 PDF 文件可以包含额外的标签信息,从而保留文本的结构。然而,这项功能必须在创建 PDF 时启用——否则,额外的信息就不会存在!

要判断 PDF 文件是否以这种方式创建,其实非常简单。打开文件,用 Acrobat Reader 查看属性菜单——在高级部分的左下角,有一个名为“Tagged PDF”的选项,它会告诉你该 PDF 是否包含这些额外的标签。而这个文件并没有包含这些标签。


42a440856b114315a86771e330a723fb.png

 

因此,这个 PDF 文件只会包含有限的结构化标签。

JPedal(一个用于转换、打印、查看 PDF 文件的 Java 库)中有一个 PDFUtilities 类,可以让你通过编程方式检查文件是否完全按照 PDF 规范进行了标记(即使没有完全标记,你仍然可能从中提取一些结构化内容)。

如果你可以创建标记的 PDF,那么建议默认启用这一功能——生成的文件并不会大多少,但如果将来需要提取文本,这会让操作更容易实现。

另请参阅相关文章《如何从 PDF 文件中提取文本》,该文讲解了如何使用 JPedal 从结构化 PDF 文件中提取 XML 内容。

 


http://www.kler.cn/a/453661.html

相关文章:

  • 基于JAVA+SpringBoot+Vue的影院订票系统
  • ubuntu 网络管理--NetworkManager
  • feign验签不通过,但是postman没问题
  • 深度学习在自动驾驶车辆车道检测中的应用
  • 如何通过采购管理系统实现智能化采购?
  • AI无人直播详解
  • 将多个 k8s yaml 配置文件合并为一个文件
  • 虚幻引擎结构之UObject
  • 【Spring】基于XML的Spring容器配置—— <import>标签的使用
  • Golang的文件解压技术研究与应用案例
  • 潮玩设备AI语音交互方案,ESP32-S3芯片模组物联网通信技术
  • echarts进度仪表盘形式
  • Java线程池面试题
  • 32单片机综合案例——智能环境监控系统
  • 数据交易和联邦学习的背景下的安全属性
  • 使用 Wails 创建桌面应用(一)
  • Vue前端开发-Pinia模块安装与配置
  • 详解VHDL如何编写Testbench
  • 本原多项式
  • Quartz 相关线程
  • springboot498基于javaweb的宠物猫认养系统(论文+源码)_kaic
  • opencv(15) OpenCV背景减除器(Background Subtractors)学习
  • mui框架开发的手机app--爱分销【无后端】
  • Spring Boot Web服务接口处理JSON入参时首字母大写问题的解决方案
  • 记一次rac故障原因分析(虚拟化平台)
  • 【搭建一个网上商城系统】