当前位置：首页 > article >正文

初始爬虫12（反爬与反反爬）

article 2024/10/7 17:45:42

学到这里，已经可以开始实战项目了，多去爬虫，了解熟悉反爬，然后自己总结出一套方法怎么做。

1.服务器反爬的原因

服务器反爬的原因总结：

1.爬虫占总PV较高，浪费资源
2.资源被批量抓走，丧失竞争力
3.法律的灰色地带

2.服务器常反什么样的爬虫

服务器常反什么样的爬虫总结：

1.十分低级的应届毕业生
2.十分低级的创业小公司
3.失控小爬虫
4.竞争对手
5.搜索引擎

3.反爬的三个方向

关键在于批量。

3.1基于身份识别的反爬

基于身份识别的反爬总结：
1.headers
        user-agent
        referer
        cookies
2.请求参数
        1.从html文件中提取
        2.发送请求获取数据
        3.通过js生成
        4.通过验证码

3.2基于爬虫行为的反爬

常见基于爬虫行为进行反爬总结：
1.基于请求频率或总请求数量
        通过请求ip/账号单位时间内总请求数量进行反爬
        通过同一ip/账号请求之间的间隔进行反爬
        通过对请求ip/账号每天请求次数设置阈值进行反爬
2.根据爬取行为进行反爬，通常在爬取步骤上做分析
        通过js实现跳转来反爬
        通过蜜罐(陷阱)获取爬虫ip(或者代理ip),进行反爬
        通过假数据反爬
        阻塞任务队列
        阻塞网络IO
        运维平台审计

3.3基于数据加密的反爬

基于数据加密进行反爬总结：
1.对响应中含有的数据进行特殊化处理
        自定义字体
        CSS
        js生成
        图片
        编码格式

4.验证码

4.1验证码的知识

图片验证码总结：
1.全自动区分计算机和人类的图灵测试
2.防止恶意破解密码、刷票、论坛灌水、刷页。
3.图片验证码在爬虫中的使用场景
        注册
        登录
        频繁发送请求时，服务器弹出验证码进行验证

4.图片验证码的处理方案

手动处理

图像识别引擎解析

打码平台

4.2图像识别引擎

需要引擎安装和python模块安装。

tesseract下载地址：Index of /tesseract

安装完成之后，简单使用：

from PIL import Image
import pytesseract

text = pytesseract.image_to_string(Image.open(r'E:\pythonProject\test.png'))
print(text)

tesseract简单使用与训练（非必要操作）：

Tesseract-OCR的简单使用与训练 - 小LiAn - 博客园 (cnblogs.com)

4.3打码平台

练习打码平台的使用。

查看全文

http://www.kler.cn/news/336287.html

SpringBoot项目：前后端打包与部署（使用 Maven）

ChatGPT全新功能Canvas上线：开启智能编程与写作新篇章

pytorch使用LSTM模型进行股票预测

算法种类丰富，分析准确率业内领先的智慧能源开源了

数据库的隔离级别

828华为云征文｜使用sysbench对Flexus X实例对mysql进行性能测评

[python毕业设计]免费分享一套基于Python的Django学生选课系统【论文+源码+SQL脚本】，帅呆了~~

JavaScript的作用域闭包

Pikachu-Sql-Inject -基于boolian的盲注

qtimer动态更新GUI数据

java给word设置复选框

Springboo通过http请求下载文件到服务器

Github优质项目推荐-第三期

软考鸭微信小程序：助力软考备考的便捷工具

【Docker】配置文件

FlagVNE]——用于虚拟网络嵌入的灵活、可通用的强化学习框架

6.1K Star，简简单单的看直播

新手教学系列——用 VSCode 实现高效远程开发

北交大研究突破：塑料光纤赋能低成本无摄像头AR/VR眼动追踪技术

AI大语言模型进阶应用及模型优化、本地化部署、从0-1搭建、智能体构建技术

1.服务器反爬的原因

2.服务器常反什么样的爬虫

3.反爬的三个方向

3.1基于身份识别的反爬

3.2基于爬虫行为的反爬

3.3基于数据加密的反爬

4.验证码

4.1验证码的知识

4.2图像识别引擎

4.3打码平台

相关文章：