当前位置: 首页 > article >正文

scrapy 融合selenium

Scrapy 抓取页面的方式和 requests 库类似,都是直接模拟 HTTP 请求,而 Scrapy 也不能抓取 JavaScript 动态渲染的页面。一种是分析 Ajax 请求,找到其对应的接口抓取,Scrapy 同样可以用此种方式抓取。另一种是直接用 Selenium 或 Splash 模拟浏览器进行抓取,我们不需要关心页面后台发生的请求,也不需要分析渲染过程,只需要关心页面最终结果即可,可见即可爬。那么,如果 Scrapy 可以对接 Selenium,那 Scrapy 就可以处理任何网站的抓取了。

scrapy对接selenium

之前使用selenium爬取了亚马逊相关网站,今天来讲讲如何发挥scrapy框架优势,将scrapy与selenium整合到一起。

新建工程

新建项目
首先新建项目,名为 scrapyseleniumtest,命令如下所示:

scrapy startproject scrapyselenium

进入创建好的项目目录
新建一个 Spider,命令如下所示:


http://www.kler.cn/a/450233.html

相关文章:

  • web的五个Observer API
  • 过滤掉list中两个连续的元素
  • C# 文件系统I/O操作--什么是I/O
  • day14-补充静态网卡配置
  • git 提交代码无法连接:Failed to connect to github.com port 443 after 21060 ms
  • 数据结构:双向循坏链表
  • 一文搞懂MYSQL、SQL、SQLServer、SQLyog的区别和联系
  • 英语四六级备考必备:2015-2024年历年真题+解析全汇总
  • 最新高性能多目标优化算法:多目标麋鹿优化算法(MOEHO)求解LRMOP1-LRMOP6及工程应用---盘式制动器设计,提供完整MATLAB代码
  • 最新高性能多目标优化算法:多目标麋鹿优化算法(MOEHO)求解GLSMOP1-GLSMOP9及工程应用---盘式制动器设计,提供完整MATLAB代码
  • 利用代码程序计算数学函数的泰勒展开式(MATLAB推导函数泰勒展开式+Python推导函数泰勒展开式)
  • springboot/ssm个人博客系统Java代码编写web在线博客相册管理项目
  • 垂起固定翼无人机大面积森林草原巡检技术详解
  • 详解MySQL中 MVCC
  • 【C语言】指针数组、数组指针、函数指针、指针函数、函数指针数组、回调函数
  • vscode 识别git目录
  • 探索大语言模型的世界:入门指南
  • vue中proxy代理配置(测试一)
  • 【HarmonyOS之旅】HarmonyOS开发基础知识(二)
  • Spring源码分析之ConfigurationClassPostProcessor