当前位置: 首页 > article >正文

python爬虫之正则表达式解析实战

文章目录

    • 1. 图片爬取流程分析
    • 2. 实现代码—爬取家常菜图片

1. 图片爬取流程分析

  1. 先获取网址,URL:https://www.xiachufang.com/category/40076/
    在这里插入图片描述
  2. 定位想要爬取的内容
  3. 使用正则表达式爬取
  4. 导入模块
  5. 指定URL
  6. UA伪装(模拟浏览器)
  7. 发起请求,使用通过爬虫爬取整个页面
  8. 编译正则表达式(提取想要的内容)
  9. 解析请求内容
  10. 指定图片存储路径
  11. 持久化存储

2. 实现代码—爬取家常菜图片

# 导入模块
import ssl
import os
import re
import requests
if __name__ == '__main__':
    # 创建一个文件夹,保存所有的图片
    if not os.path.exists('./caipu/'):
        os.mkdir('./caipu/')
    # 指定URL
    url = 'https://www.xiachufang.com/category/40076/'
    # 模拟浏览器
    headers = {
        'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
    }
    # 使用通用爬虫对URL对应的一整个页面进行爬取,并获取响应数据
    page_text = requests.get(url=url, headers=headers).text

    # 编译正则表达式
    # re.compile()方法将正则表达式编译成一个对象,可以通过调用它的方法来对文本进行匹配操作。
    data_src_list = re.compile('data-src="(.*?)" width=')
    # 解析图片链接
    # findall():查找字符串中所有满足正则表达式的字符串,以列表的形式返回。
    data_src_url = data_src_list.findall(page_text)
    # print(data_src_url)

    for src in data_src_url:
        # 请求到图片的二进制数据
        img_data = requests.get(url=src,headers=headers).content
        # 生成图片名称
        # 由于http://xxxx.jsp后面带有问号,所以将其进行切片
        img_name = src.split('/')[-10].split('?')[0]
        # print(img_name)
        # 指定图片存储的路径
        imgPath = './caipu/'+img_name
        # 持久化存储
        with open(imgPath,'wb') as fp:
            fp.write(img_data)
            print(img_name, "下载成功!!!")

http://www.kler.cn/a/105480.html

相关文章:

  • 定义USB接口,鼠标类和键盘类都可以作为实现类去实现USB接口
  • 第四章 文件管理 七、文件共享
  • [论文阅读]Point Density-Aware Voxels for LiDAR 3D Object Detection(PDV)
  • 【OpenCV实现平滑图像处理】
  • Ps:简单快速的主背分离方法
  • JAVA 短剧系统小程序的开发流程
  • 基于nodejs+vue 宁夏旅游景点客流量数据分析系统
  • 【MySQL】SQL语句优化
  • Qt5 Python-docx库的使用,Qt python混合编程,qt 读写word,不依赖office
  • 代码随想录图论 第三天 | 130. 被围绕的区域 417. 太平洋大西洋水流问题
  • 【JavaSE专栏53】Java集合类HashMap详解
  • 面试总结之消息中间件
  • 几个常用的nosql数据库的操作方式
  • 构建自动化测试环境:使用Docker和Selenium!
  • Spring Boot 使用 Disruptor 做内部高性能消息队列
  • 免登陆 同步脚本 zookeeper kafka集群详细安装步骤
  • node 第十二天 npm补充 详解package-lock.json在团队协作中的作用
  • Java 使用 poi 和 aspose 实现 word 模板数据写入并转换 pdf 增加水印
  • 网络协议--BOOTP:引导程序协议
  • 安卓核心板_天玑700、天玑720、天玑900_5G模块规格参数