当前位置: 首页 > article >正文

【爬虫】– 抓取原创力文档数据

使用RPA工具,实现针对于原创力中不可下载文档的抓取,可延用于其他类似文库

1 使用工具、环境

影刀RPA、WPS Office、谷歌浏览器(非指定)

2 代码流程

在这里插入图片描述

3 关键点

  1. 此方案只适合抓取非VIP即可预览全文的文档,抓取下来的数据是图片

  2. 打开网址后,需要鼠标向下滚动一段距离才能触发“下一页”按钮:在这里插入图片描述

  3. 在节点路径:“//*[@id=“main”]/div[1]/div[3]/div[2]//img”下,抓取链接(src属性),注意有些是文档中间的广告图片,有效的文档其实是“//view-cache.book118.com”开头的链接,需要过滤掉非此开头的广告链接,如下:在这里插入图片描述

  4. 文档图片刷新很玄学,需要上下滑动网页才能刷新出来,代码中用了无限循环滚动鼠标+等距离上下移动来解决,检测到没有刷新时打转的“待刷新”才抓取图片链接:在这里插入图片描述

  5. 判断是否抓取到最后一页,是对“继续预览”文字的检测,如果不出现就说明已经是最后一页,即可退出程序:在这里插入图片描述

  6. 按照原文档排序命名图片,依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断,所以代码中将图片的名字和对应路径,分别构造成字典的键和值,再循环1到最大值,依次取出字典的对应值,插入word文档中,实现和原文档一样的排序效果

4 执行结果图

在这里插入图片描述

5 完整程序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.kler.cn/a/430220.html

相关文章:

  • 24下半年软考「单独划线」合格标准已公布!
  • 51单片机——串口通信(重点)
  • 《鸿蒙系统AI技术:筑牢复杂网络环境下的安全防线》
  • 《解锁计算机视觉智慧:编程实现图片场景文字描述的开源宝藏》
  • 51单片机——定时器中断(重点)
  • Bash语言的数据库编程
  • Python 类的设计(以植物大战僵尸为例)
  • 3D Gaussian Splatting代码详解(一):模型训练、数据加载
  • 单片机 PCB 设计要点
  • 数据结构(Queue队列)
  • Linux:network:添加ip的时候自动添加一个本地路由
  • 针对一个系统的权限管理这样的业务场景,使用各设计模式解说
  • YOLOv8-ultralytics-8.2.103部分代码阅读笔记-augment.py
  • MQTT消息服务器mosquitto介绍及说明
  • zerotier实现内网穿透(访问内网服务器)
  • 得物新一代可观测性架构:海量数据下的存算分离设计与实践
  • 期末复习-Hadoop综合复习
  • 力扣--LCR 134.Pow(x,n)
  • K8S存储实战案例:NFS+StorageClass+PV/PVC+Deployment
  • CSS滑动门与粘性定位
  • 探索ai一键生成PPT的未来
  • LeetCode139. 单词拆分(2024冬季每日一题 29)
  • 探索 Java 中的 Bug 世界
  • Milvus中如何实现全文检索(Full Text Seach)?
  • 【hacker送书第18期】ChatGPT 4 应用详解:AI文案+AI绘画+AI视频+GPTs
  • 第六届新生程序设计竞赛—热身赛(C语言)