当前位置: 首页 > article >正文

Requests聚焦爬虫-数据解析

原理:定位到对应标签,获取标签内的东西

解析三种方法:

    1:正则

58二手房。获取图片列表,二进制content。展开,每个图片是一个内容,正则从头取到尾,不同之处用 .*? 替换掉。

import requests
import re
import os
if __name__ == "__main__":
    # url='https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2898385373.jpg'
    # img_data=requests.get(url=url).content
    # with open("./pic.png","wb") as fp:
    #    fp.write(img_data)

    if not os.path.exists("./pictures"):
        os.makedirs("./pictures")

    url='https://www.58.com/ershoufang/'
    #2.进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    #

http://www.kler.cn/a/470420.html

相关文章:

  • nlp培训重点-2
  • Linux性能优化-系列文章-汇总
  • 刚体变换矩阵的逆
  • 使用 Python结合ffmpeg 实现单线程和多线程推流
  • CSS Grid 布局示例(基本布局+代码属性描述)
  • 【学习笔记】数据结构(十)
  • 项目48:简易语言学习助手【源代码】 --- 《跟着小王学Python·新手》
  • 线程的创建与管理:Java的多重身份
  • 【React】刷新页面或跳转路由时进行二次确认
  • 【问题记录】SpringBoot 解决 getReader() has already been called for this request 错误
  • F#语言的计算机基础
  • HTML - <link>
  • 03、MySQL安全管理和特性解析(DBA运维专用)
  • Python:类方法、实例方法与静态方法深度解析(补)
  • (安卓无线调试)ADB 无法连接及 Scrcpy 问题排查指南
  • 机器学习算法---贝叶斯学习
  • 城市安全风险综合监测预警平台
  • 阿里云 人工智能与机器学习
  • 动漫推荐系统django+vue前台后台完整源码
  • 这是什么操作?强制迁移?GitLab 停止中国区用户访问
  • 专业学习|BFS算法介绍以及实现框架
  • RK3588平台开发系列讲解(系统篇)Linux Kconfig的语法
  • AI赋能运维:实现运维任务的智能化自动分配
  • 2025.1.2
  • CE中注册的符号地址如何通过编程获取
  • [开源]自动化定位建图系统