当前位置: 首页 > article >正文

python爬虫之创建属于自己的ip代理池

在后续需求数据量比较大的情况下,自建一个ip代理池可以帮助我们获得更多的数据。

下面我来介绍一下整个过程

1.找到目标代理网站

https://www.dailiservers.com/go/webshare
https://proxyscrape.com/
https://spys.one/
https://free-proxy-list.net/
http://free-proxy.cz/en/
https://www.proxynova.com/proxy-server-list/
https://github.com/clarketm/proxy-list
https://github.com/opsxcq/proxy-list

2.解析网站获得免费的代理ip列表

使用解析网站或者是发送网络请求都可以

3.使用request中的参数proxies

如果代理不需要密码和用户名

prox = {
    "http":"http://ip地址:端口号",
    "https":"http://ip地址:端口号"
}

如果代理需要密码和用户名

prox = {
    "http":"http://用户名:用户密码@ip地址:端口号",
    "https":"http://用户名:用户密码@ip地址:端口号"
}

注意如果当你的格式 填写不正确的时候,也是会出现请求成功的,但是使用的是自己本机的ip,所以请注意使用时的格式填写

prox的使用

直接在requests中填写参数请求,proxies = prox

4.进行代理验证

大部分免费的代理都是不可以使用的,这里可以使用telnetlib进行验证

使用方法

 try:
     telnetlib.Telnet(ip, port=端口号, timeout=3)
except:
     print('ip无效!')
else:
    print("有效)

建议将可以使用的ip储存到文件中,以便后续的使用,可以减少筛选的事件。


http://www.kler.cn/news/156405.html

相关文章:

  • 行业分析:2023年木炭行业市场需求及发展前景
  • 鸿蒙基础入门与高频知识点梳理
  • 2.1 Linux C 编程
  • 在一个没有超级用户的mongodb 生产库上如何添加超级用户
  • 【每日OJ —— 110. 平衡二叉树】
  • uniapp微信小程序解决绘制polygon结束时的问题
  • pdfjs,pdf懒加载
  • 高效且实用的表单配置方式:低代码表单上传文件后即刻回显
  • ruoyi+Hadoop+hbase实现大数据存储查询
  • 400页Python学习PDF笔记,全面总结零基础入门看这一篇足够了
  • 《微信小程序开发从入门到实战》学习四十
  • 大数据|计算机毕业设计——基于Django协同过滤算法的房源可视化分析推荐系统的设计与实现
  • flutter开发实战-readmore长文本展开和收缩控件
  • C++学习 --函数对象
  • 线上超市小程序可以做什么活动_提升用户参与度与购物体验
  • 活动回顾|德州仪器嵌入式技术创新发展研讨会(上海站)成功举办,信驰达科技携手TI推动技术创新
  • 学习-java多线程面试题
  • 在 Linux 上修改 Oracle 控制文件、日志文件和数据文件的目录的脚本
  • Rust UI开发(五):iced中如何进行页面布局(pick_list的使用)?(串口调试助手)
  • (一)舒尔特表练习记
  • 新手村之SQL——函数多表联结
  • rman SBT_TAPE NFS disk 模拟NBU带库 FRA
  • Android跨进程通信,binder,native层,服务端在servicemanager注册服务
  • 【FAQ】运动健康服务端侧数据常见问题及解答
  • Android 透明度颜色值对照表
  • Apache Flink(六):Apache Flink快速入门 - Flink案例实现
  • SpringBoot框架结合Redis实现分布式锁
  • Mover Creator 用户界面
  • 【设计模式】职责链模式设计在线文档帮助系统
  • 销售员怎样才能做到让客户主动来找?