当前位置: 首页 > article >正文

python爬虫--某房源网站验证码破解

文章目录

    • 使用模块
    • 爬取目标
    • 验证码
    • 技术细节
    • 实现成果
    • 代码实现

使用模块

requests请求模块

lxml数据解析模块

ddddocr光学识别

爬取目标

网站验证码破解思路是统一的,本文以城市列表为例

目标获取城市名以及城市连接,之后获取城市房源信息技术直接替换地址即可

验证码

技术细节

一、 访问频次过快会触发验证码页面

使用302从定向到验证码页面,在请求地址中包含location参数与ext参数需要提取出来供后续使用

    print(f"触发验证码")
	redirect_url = res.headers["location"]
	parsed_url = urlparse(redirect_url)
	query_params = parse_qs(parsed_url.query)

	location = query_params.get('location')[0]
	ext = query_params.get('ext', [''])[0]

二、点击点击验证按钮

发起请求获取验证码图片对应的base64编码

<

http://www.kler.cn/a/429928.html

相关文章:

  • React之react-redux的使用
  • 前后端无缝沟通:掌握API接口开发与调用的关键
  • 【JavaEE】Spring Boot 项目创建
  • C#和Java异同点
  • 数字化那点事:一文读懂云计算
  • 代码随想录算法训练营day37|动态规划part5
  • Netty 心跳机制与连接管理
  • flink-connector-mysql-cdc:02 mysql-cdc高级扩展
  • 无监督目标检测最新CVPR解读
  • 【网络安全资料文档】网络安全空间态势感知系统建设方案,网络安全数据采集建设方案(word原件)
  • scala的正则表达式的特殊规则
  • 深入探索Redis:数据结构解析与Spring Boot实战应用
  • 介绍8款开源网络安全产品
  • python数据分析之爬虫基础:requests详解
  • 消息队列(MQ):系统解耦与异步通信的利器
  • C#中LinkedList与List的对比及应用实例
  • Swagger四种定义UI界面
  • LoViT: 用于手术阶段识别的长视频Transformer|文献速递-生成式模型与transformer在医学影像中的应用
  • canny算子解析
  • python+docx+docx2python:多文件合并,提取docx文件文本、表格及图片数据