当前位置: 首页 > article >正文

python爬虫:selenium+browsermobproxy实现浏览器请求抓取(模块安装详解)

前言

        本来很多场景用beautiful和requests就能解决的,但是最近发现了某些网站会使用<link>来链接网页信息,让我没办法通过requests获取页面的具体内容;并且接口也加入了某种token的生成方案,导致我无从下手。

        因此,我使用了selenium+browsermobproxy的方案来解决这个问题(它可以抓取到你通过浏览器F12可以看到的几乎所有的资源)。

        这里是模块的安装方案,如需源码则关注后篇博客

模块安装 

        首先,你需要弄到两个东西,本机浏览器对应版本的driver驱动,还有浏览器代理程序

        下载

        浏览器代理程序:https://github.com/lightbody/browsermob-proxy/releases 

        chrome浏览器驱动下载地址:Chrome for Testing availability 

        如果你不想使用chrome浏览器,那么你需要自己去找这个驱动下载的链接 

  

        解压和所需的目标 

        解压后你将得到这两个东西,这是你后面要使用的关键

 

        python模块安装 

         如下安装这两个python模块

pip install browsermob-proxy
pip install selenium

 


http://www.kler.cn/a/281532.html

相关文章:

  • Document TagExplorer:精准标签,快速检索,文档管理新体验
  • Linux之7z命令压缩和解压(三十四)
  • 机器学习之------RNN循环神经网络
  • 笔试训练,牛客.合唱团牛客.kannan与高音牛客.拜访(BFS)牛客.买卖股票的最好时机(四)
  • 如何利用命令模式实现一个手游后端架构?
  • 移情别恋c++ ദ്ദി˶ー̀֊ー́ ) ——7.list(模拟实现)
  • jsoncpp 使用说明(ubuntu)
  • 自定义tabbar跳转防止页面抖动(uniapp案例,也适用所有前端项目)
  • 近期29√28 冲击七连红,周五意甲 威尼斯VS都灵 比赛分析 比分预测 免费获取,重榜二串一来了
  • Sui Move HackerHouse@成都圆满落幕,静候下次精彩!
  • 机器学习:集成学习之随机森林
  • 网络安全总结①
  • 【百日算法计划】:每日一题,见证成长(001)
  • 展锐7870 Camera HAL层日志调试
  • MySQL 查询优化详解
  • JAVA如何使用反射突破泛型的限制
  • 全国上市公司网络安全风险指数(2001-2023年)
  • 【面试经验】字节跳动 商业化产品经理面经回顾
  • 分子属性梯度引导的3D分子生成扩散模型 TAGMOL - 评测
  • 软件测试学习笔记丨静态测试与代码审计 SonarQube