当前位置: 首页 > article >正文

【网页内嵌PDF下载】PDF.js妙用

【网页内嵌PDF下载】PDF.js妙用

  • 问题描述
  • PDF源文件下载
    • PDF.js介绍
    • PDF.js使用
  • 声明

问题描述

PDF作为一种便携式文件类型,具有独立于应用程序、硬件和操作系统的特性1,这使得其成为目前使用最多的文件类型之一。

上传者出于一些考虑,会将部分PDF文件内嵌在网页中并不提供保存功能选项。在这种情况下,大多数时候可以通过浏览器的打印功能选项来保存PDF文件,但这种方式有一个缺点,即保存的PDF文件清晰度通常不如网页中内嵌的PDF源文件。

PDF源文件下载

常见的源文件下载方法为通过浏览器插件、下载管理插件、浏览器开发者工具和网页源码2进行下载,由于浏览器插件与下载管理插件需要额外安装并可能会下载错误版本,而当源文件的数据传输方式为加密传输时,网页源码也难以定位PDF源文件,因此,浏览器开发者工具似乎更加便捷高效。

使用浏览器开发者工具下载源文件通常有两种方式:

  • 查看网络面板,寻找源文件的网络请求并解析文件链接
  • 控制台使用命令调用相关API进行源文件下载

由于第一种下载方式在源文件加密传输时无效,因此只介绍第二种方式。

PDF.js介绍

PDF.js是一个由Mozilla开发并维护的开源JavaScript库3,它允许在现代Web浏览器中直接渲染和显示PDF文件。这个库的主要作用是将PDF文件的内容转换为HTML5格式并提供了一系列API,使得用户可以在浏览器中直接查看、操作PDF文件。

PDF.js使用

当网页内嵌的PDF未提供保存功能选项,尤其是传输方式为加密传输时,可通过如下步骤使用PDF.js保存源文件4

  1. 在内嵌PDF的网页中打开浏览器开发者工具,并找到“控制台浏览器开发者工具中找到“控制台”
  2. 输入命令this.PDFViewerApplication.download()this.PDFViewerApplication.save()(命令中使用了PDF.js的API,现代Web浏览器通常会内置对PDF.js的支持)
    输入命令
  3. 下载得到PDF源文件
    下载得到PDF源文件

声明

通过上述步骤,基本可以应对网页内嵌PDF下载的大部分情况。但值得注意的是,上传者不提供保存功能选项通常是为了限制PDF文件的传播,其中可能涉及到文件的版权、保密等问题,上述下载方法应当在合理范围内使用并对源文件不进行二次传播。


  1. pdf是指什么意思 ↩︎

  2. 怎么下载网页内嵌pdf ↩︎

  3. PDF.js ↩︎

  4. 腾讯调研云js加载的动态pdf下载思路 ↩︎


http://www.kler.cn/a/370925.html

相关文章:

  • 【Linux】进程间通信IPC
  • citrix netscaler13.1 重写负载均衡响应头(基础版)
  • 【算法】图解两个链表相交的一系列问题
  • 浅谈云计算15 | 存储可靠性技术(RAID)
  • 蓝桥杯备赛:顺序表和单链表相关算法题详解(上)
  • mac 安装docker
  • MFC tcpclient
  • STM32主从定时器输出个数、频率可调的脉冲
  • 知名数字中国战略布局与新质生产力培训师讲师培训讲师唐兴通数字经济数字化转型专家教授学者大数据AIGC大模型智能化战略数字时代商业模式创新
  • Hana 到 PostgreSQL 数据迁移同步
  • QT 从ttf文件中读取图标
  • 使用命令行自动生成markdown文档目录
  • 针对初学者的PyTorch项目推荐
  • 【论文阅读】Real-ESRGAN
  • 拥塞控制与TCP子问题(粘包问题,异常情况等)
  • OpenHarmony4.0配置应用开机自启
  • 软件工程之软件系统设计与软件开发方法
  • Pandas库学习Day20
  • 操作系统--进程
  • 大文件秒传,分片上传,断点续传
  • LeetCode 热题 100之子串
  • QT实时显示日志内容
  • Rust实现Kafka - 前言
  • 特斯拉与 SK hynix 的潜在交易
  • 代码随想录 | Day35 | 动态规划 :最小花费爬楼梯不同路径不同路径II
  • 2-133 基于matlab的粒子群算法PSO优化BP神经网络