当前位置：首页 > article >正文

PDF 文件中的文本链接是如何定义的？

article 2025/3/9 23:43:01

在查看 PDF 文件时，你可能会注意到其中有蓝色的可点击链接，类似于网页中的超链接。这些链接在 PDF 中有两种定义方式：

1. 由 PDF 查看器自动生成的链接

一些 PDF 查看器会自动识别页面上的文本，如果文本以 "http://" 或 "www." 开头，它们会自动添加超链接。

但需要注意：

1 这种链接并不存储在 PDF 文件本身，而是查看器的临时解析结果。

2 不同的 PDF 查看器处理方式不同，有的会识别多行 URL，而有的可能不会。

3 这种方法不够精准，容易出现遗漏或错误。

2. PDF 文件中实际存在的链接

PDF 文件可以包含真正的超链接，但这些链接不是存储在文本中，而是作为 Annotations（注释对象）存储的。这些注释对象是 PDF 文件中的独立对象，由 PDF 查看器渲染并绘制到页面上。

PDF 文件中的 Annotation（注释对象）

在每个 PDF 页面上，可能会有一个注释对象列表（如果没有注释对象，则此列表为空）。注释对象使 PDF 能够支持动画、交互、超链接等功能。

PDF 有多种类型的 Annotation（注释对象），但这里我们主要关注 /Subtype 为 Link 的注释对象（即超链接）。

PDF 超链接的原始数据示例

在 PDF 的内部数据中，链接可能如下所示：

23 0 obj<<

/F 4 /A<</URI(http://www.jpedal.org/link.html)/Type/Action/S/URI>>

/BS<</W 0>>

/Subtype/Link

/StructParent 1

/Rect[60.72 684 86.88 696]

>>

endobj

关键字段解析

1 /Subtype：

1 指定了注释的类型，这里是 "Link"（超链接）。

2 PDF 还支持视频、音频、表单、弹出注释等其他类型的注释。

2
/Rect：

1 这是 PDF 坐标，定义了一个矩形区域。

2 当用户点击该区域时，超链接将被激活。

/A（Action）：

1 这里定义了链接的具体动作。

2 在这个示例中，/A 字段指向一个 URL（http://www.jpedal.org/link.html）。

3 PDF 查看器会在浏览器中打开该链接。

如何提取 PDF 文件中的超链接？

超链接数据可以直接从 Annotation（注释对象）中提取。这正是我们的 JPedal 所提供的功能之一。

正如前文提到的：

1 PDF 的文本和超链接是分开存储的，因此要解析页面文本，必须解析整个 PDF 页面。

2 由于 PDF 的存储方式复杂，无法直接通过坐标精确定位文本，必须解析整个页面内容才能确定超链接周围的文本信息。

我们的主页：PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

查看全文

http://www.kler.cn/a/577811.html

在 CLion 中使用 Boost.Test 进行 C++ 单元测试

CentOS 7 aarch64上制作kernel rpm二进制包 —— 筑梦之路

基于java社交网络安全的知识图谱的构建与实现

谈谈常用的分布式 ID 设计方案

GPU/CUDA 发展编年史：从 3D 渲染到 AI 大模型时代（上）

javascript字符串截取有哪些

从零开始学机器学习——逻辑回归

对ArrayList中存储的TreeNode的排序回顾

设计一个SVF下载器之一：整体思路

pytorch常用参数初始化

es优化方面

LeetCode1137 第N个泰波那契数

C++入门——函数重载

linux 命令sed

QT中使用C++调用 python脚本

驱动开发系列45 - Linux 显卡KMD驱动代码分析（六）- 显卡驱动与OS接口

小迪安全-27-php开发，tp框架，路由访问，对象操作，内置过滤，核心漏洞

2.2.1 网络原理-posix api

#9 【code】实现扩散模型的一个jupyter notebook

PX4中的DroneCAN的实现库Libuavcan及基础功能示例