当前位置：首页 > article >正文

Requests聚焦爬虫-数据解析

article 2025/1/8 18:12:56

原理：定位到对应标签，获取标签内的东西

解析三种方法：

1：正则

58二手房。获取图片列表，二进制content。展开，每个图片是一个内容，正则从头取到尾，不同之处用 .*？替换掉。

import requests
import re
import os
if __name__ == "__main__":
    # url='https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2898385373.jpg'
    # img_data=requests.get(url=url).content
    # with open("./pic.png","wb") as fp:
    #    fp.write(img_data)

    if not os.path.exists("./pictures"):
        os.makedirs("./pictures")

    url='https://www.58.com/ershoufang/'
    #2.进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    #

http://www.kler.cn/a/470420.html

相关文章：

nlp培训重点-2

Linux性能优化-系列文章-汇总

刚体变换矩阵的逆

使用 Python结合ffmpeg 实现单线程和多线程推流

CSS Grid 布局示例(基本布局+代码属性描述)

【学习笔记】数据结构（十）

项目48：简易语言学习助手【源代码】 --- 《跟着小王学Python·新手》

线程的创建与管理：Java的多重身份

【React】刷新页面或跳转路由时进行二次确认

【问题记录】SpringBoot 解决 getReader() has already been called for this request 错误

F#语言的计算机基础

HTML - ＜link＞

03、MySQL安全管理和特性解析(DBA运维专用)

Python：类方法、实例方法与静态方法深度解析（补）

（安卓无线调试）ADB 无法连接及 Scrcpy 问题排查指南

机器学习算法---贝叶斯学习

城市安全风险综合监测预警平台

阿里云人工智能与机器学习

动漫推荐系统django+vue前台后台完整源码

这是什么操作？强制迁移？GitLab 停止中国区用户访问

专业学习｜BFS算法介绍以及实现框架

RK3588平台开发系列讲解（系统篇）Linux Kconfig的语法

AI赋能运维：实现运维任务的智能化自动分配

2025.1.2

CE中注册的符号地址如何通过编程获取

[开源]自动化定位建图系统