当前位置: 首页 > article >正文

《python爬虫练习》之随机的User-Agent请求头

1. 背景:

大数据时代,互联网上很多的数据需要被爬取然后进行筛选,就可以被我们所利用,在这个过程中反爬技术也应运而生,互联网之间的攻防战一直在不断升级。那么我们在爬取数据的时候,自然需要进行伪装,让爬取数据的服务器认为我们是合法的访问。 有大佬封装了一个请求头的库,我们可以通过语句进行随机的访问,我就随机记录一下,可能我平时爬的数据比较少,多为单个UserAgent,有浏览器也有手机但是没有使用过这种随机的,但是作为一个爬虫类的知识点,我觉得可以记录一下。

2.使用fake_useragent库函数

from fake_useragent import UserAgent
UA = UserAgent()
print(UA.random)

3.根据浏览器来选择随机的数据

from fake_useragent import UserAgent
UA = UserAgent()

print(UA.chrome)
print(UA.ie)
print(UA.firefox)
print(UA.opera)
print(UA.safari)

这样根据不同的浏览器就可以生成不同的数据,当然这里每次都是随机的生成的。我们在写爬虫的时候如果为了严谨可以适当的这样写。当然对等的来讲,还有一个请求头中很重要的点就是IP,虽然我对于网络攻击不是非常了解,但是常见的DDOS攻击不就是对服务器进行多线程的访问,从而使服务器宕机,服务器可以通过黑白名单来进行ip地址的封杀,爬虫类似也会被识别ip从而使爬虫任务失败,这个时候黑客会做一些“肉鸡”,绑架一些主机或者说孪生出很多的ip地址去访问,我们也是一样的通过代理的形式使用不同的IP可以防止被封杀的可能性。

4.IP池

有付费的也有开源的项目,都可以试试,我后面有时间可能会单独出一期说明吧。以下,是一些开源的IP池。

  1. scrapy-proxy-pool: https://github.com/hyan15/scrapy-proxy-pool
  2. ipproxytool: https://github.com/brain-snail/ipproxytool
  3. ProxyPool: https://github.com/jhao104/proxy_pool
  4. PythonProxyPool: https://github.com/henson/PythonProxyPool
  5. proxy-pool: https://github.com/Python3WebSpider/proxy-pool
  6. CrawlerProxyPool: https://github.com/Python3WebSpider/CrawlerProxyPool
  7. SimpleProxyPool: https://github.com/kjnfff/SimpleProxyPool
  8. ProxySpider: https://github.com/Python3WebSpider/ProxySpider
  9. XX-net: https://github.com/XX-net/XX-Net

http://www.kler.cn/a/18210.html

相关文章:

  • 文件上传漏洞--理论
  • leetcode206. Reverse Linked List
  • 论文分享:DiskANN查询算法
  • 信息安全工程师(83)Windows操作系统安全分析与防护
  • 「IDE」VS2022插件 Visual Assist X 番茄助手介绍说明
  • ESLint 使用教程(四):ESLint 有哪些执行时机?
  • SOFA Weekly|开源之夏 MOSN 与 Layotto 项目简介、社区会议预告、社区本周贡献
  • java计算矩形的面积和周长的方法
  • OpenFeign详解
  • 前端基于uniapp[uniPush]实现APP消息推送(安卓、IOS)
  • 为什么选择云计算
  • 什么是镜像?阿里云服务器镜像是什么?镜像怎么选?
  • 时序预测 | Matlab实现SSA-GRU、GRU麻雀算法优化门控循环单元时间序列预测(含优化前后对比)
  • 全网最火,Web自动化测试驱动模型详全,一语点通超实用...
  • k8s基础4——deployment控制器、应用部署、升级、回滚、水平扩容缩容
  • LeetCode 1206. 实现跳表
  • OJ练习第94题——编辑距离
  • 强烈推荐:一款中文AI问答、创作、绘画工具
  • 石油化工企业防雷工程应用解决方案
  • 基于Vue的个人网站的设计与实现
  • 查看NVIDIA GPU占用率方法
  • win10常用操作集合 - vhd/wsl/等等
  • AUTOSAR - CANTP - 学习一 :理论基础
  • 中台产品经理01:中台落地工具MSS模型
  • 社交“搭子”火了!小红书数据分析,品牌正用“陪伴”种草?
  • 用科技创造未来!流辰信息技术助您实现高效办公