当前位置: 首页 > article >正文

Python爬虫01

requests模块

文档

  • 安装
pip/pip3  install  requests
  • response.text 和 response.content的区别
1.response.text 等价于 response.content.decode("推测出的编码字符集")

response.text
类型:str
编码类型:requests模块自动根据Http头部对响应的编码(response.encoding)作出有根据的推测,推测的文本编码

response.content
类型:bytes
编码类型:没有指定

2.通过对response.content进行decode,来解决中文乱码
response.content.decode() 默认utf-8
response.content.decode("gbk")
常见的编码集
utf-8
gbk
gb2312
ascii
iso-8859-1 

3.response响应对象的其他常用属性或方法
response.url 响应url(有时候响应url和请求url不一致)
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request._cookies 响应对应请求的cookie;返回cookieJar类型
response.cookies 响应cookie(经过set-cookie动作;返回cookieJar类型)
response.json() 自动将json字符串类型的响应内容转换为python对象
  • headers参数的使用
requests.get(url, headers=headers)

 - headers 参数接收字典形式的请求头
 - 请求头字段名作为key,字段对应的值作为value

  • 发送带参数的请求

 - 直接URL上拼接
 https://www.baidu.com/s?wd=python
 - 构建字典,交给params
 kw = {"wd":"python"}
 requests.get(url, headers=headers, paramas=kw)
 
  • headers中携带cookie
requests.get(url, headers=headers)
  • cookies参数的使用
保持会话
# 构建cookie字典
requests.get(url, cookies=cookies)
  • cookieJar的转换方法
1.转换方法
cookies_dict = resquests.utils.dict_from_cookiejar(response.cookies)
2.其中response.cookies返回的就是cookiejar类型的对象
3.requests.utils.dict_from_cookiejar 函数返回cookies字典 
  • 超时时间timeout的使用
response = requests.get(url, timeout=3)
  • 代理ip参数proxies的使用

response = requests.get(url, proxies=proxies)
proxies的形式:字典
eg:
proxies = {
	"http":"http://xxxx",
	"https":"https://xxx"
}
  • 使用verify参数忽略CA证书
verify=False
verify 参数能忽略CA证书的认证

import requests
url = "xxxx"
response = requests.get(url, verify=False) 
  • requests发送post请求
response = requests.post(url, data)
data 参数接收一个字典 
  • requests.session进行状态保持
requests.session的作用
  自动处理cookie,即下一次请求会带上前一次的cookie
requests.session的应用场景
  自动处理连续的多次请求过程中产生的cookie
requests.session的使用方法
  session = requests.session()  #实例化session对象
  response = session.get(url, headers, ...)
  response = session.post(url, data, ...)
  session对象发送get或者post请求的参数,与requests模块发送请求的参数完全一致 

http://www.kler.cn/a/293235.html

相关文章:

  • ubuntu20.04 解决Pytorch默认安装CPU版本的问题
  • 详解基于C#开发Windows API的SendMessage方法的鼠标键盘消息发送
  • Nuxt 版本 2 和 版本 3 的区别
  • 想租用显卡训练自己的网络?AutoDL保姆级使用教程(PyCharm版)
  • 《TCP/IP网络编程》学习笔记 | Chapter 11:进程间通信
  • mysql5.7安装SSL报错解决(2),总结
  • 代码随想录:343. 整数拆分
  • ECMAScript与JavaScript的区别:深入解析与代码示例
  • MP条件构造器之常用功能详解(select、set)
  • MySQL——事务与存储过程(三)存储过程的使用(4)删除存储过程
  • 三星的新款笔记本电脑AI性能提升一倍
  • vite创建的vue项目怎么使用jsx来实现elementPlus表格表尾的合计有多行大的方法
  • 【全网最全】2024年数学建模国赛D题39页成品论文+matlab代码+结果等(后续会更新)
  • 身份验证技术应用10大关键趋势
  • 图论题总结
  • 基于JavaWeb开发的Java+Springboot+Vue+elememt美食论坛平台设计实现
  • 安卓逆向(之)真机root(红米手机)
  • 社群空间站付费入群系统易支付版全套搭建教程
  • 【嵌入式学习笔记】---- 通信基础
  • 关于蓝屏查看日志分析原因
  • C_13_FILE
  • 【Spring】Spring MVC 入门(2)
  • css之雪碧图(精灵图)
  • Oracle手动误删物理上的数据文件解决办法
  • 软件测试学习笔记丨Pytest+Allure测试计算器
  • 什么是回流与重绘,如何尽力避免