当前位置: 首页 > article >正文

【Python网络爬虫笔记】6- 网络爬虫中的Requests库

一、概述

Requests 是一个用 Python 语言编写的、简洁且功能强大的 HTTP 库。它允许开发者方便地发送各种 HTTP 请求,如 GET、POST、PUT、DELETE 等,并且可以轻松地处理请求的响应。这个库在 Python 生态系统中被广泛使用,无论是简单的网页数据获取,还是复杂的网络服务交互场景都能发挥作用。

二、在网络爬虫中的作用

1.发送请求

  • 简单请求发送:在网络爬虫中,最常见的操作是获取网页内容。使用requests.get()方法可以轻松地向目标网址发送GET请求。例如,如果想要获取某个新闻网站的首页内容,可以这样写:
import requests
response = requests.get('https://news.example.com')
print(response.text)
  • 带参数请求:对于一些需要传递参数的网页,如搜索结果页面,requests库可以通过params参数来构建带有查询参数的GET请求。假设要在一个电商网站上搜索特定商品,代码可以这样写:
import requests
params = {'keyword': 'laptop'}
response = requests.get('https://ecommerce.example.com/search', params = params)
print(response.url)  
print(response.text)

这样就可以获取到包含 “laptop” 关键词的搜索结果页面内容。

2.处理响应

  • 状态码检查:在网络爬虫中,需要检查请求是否成功。requests库返回的响应对象有一个status_code属性,可以用来判断请求的状态。例如,200表示请求成功,404表示页面未找到。
import requests
response = requests.get('https://news.example.com')
if response.status_code == 200:
    print("请求成功")
else:
    print("请求出现问题,状态码:", response.status_code)
  • 获取内容:可以通过response.text属性获取网页的文本内容(例如 HTML 代码),用于后续的解析工作。如果网页返回的是二进制数据(如图片、文件等),可以使用response.content属性获取字节流数据。

3. 模拟浏览器行为

  • 很多网站会根据请求头中的User - Agent等信息来判断请求是否来自合法的浏览器。requests库可以通过设置headers参数来模拟浏览器发送请求。
import requests
headers = {'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko)Chrome/91.0.4472.124 Safari/537.36'}
response = requests.get('https://news.example.com', headers = headers)
print(response.text)

这样就可以让服务器认为请求是来自浏览器,从而避免一些因为请求被识别为非浏览器请求而导致的访问限制。
在这里插入图片描述
详见案例:抓取豆瓣电影数据
https://blog.csdn.net/zi__you/article/details/144144052?fromshare=blogdetail&sharetype=blogdetail&sharerId=144144052&sharerefer=PC&sharesource=zi__you&sharefrom=from_link


http://www.kler.cn/a/417646.html

相关文章:

  • 大模型综述一镜到底(全文八万字) ——《Large Language Models: A Survey》
  • 并发编程 - 线程同步(三)之原子操作Interlocked简介
  • 最大矩阵的和
  • llama.cpp GGUF 模型格式
  • 【MySQL】MySQL经典面试题深度解析
  • CSS 样式化表格:从基础到高级技巧
  • tomcat控制台中文乱码的解决方法
  • 使用LabVIEW2019x64的IMAQdx调用工业相机采图(二)
  • DataWhale—PumpkinBook(TASK07支持向量机)
  • 记录Threadlocal使用
  • 机载视频流回传+编解码方案
  • node.js基础学习-http模块-创建HTTP服务器、客户端(一)
  • jeecgbootvue2重新整理数组数据或者添加合并数组并遍历背景图片或者背景颜色
  • 三维路径规划|基于黑翅鸢BKA优化算法的三维路径规划Matlab程序
  • AI前景分析展望——GPTo1 SoraAI
  • 浮点数计算,不丢失精度
  • 第二部分shell----二、shell 条件测试
  • Flutter 1.2:flutter配置gradle环境
  • Docker初识-架构
  • 【C++boost::asio网络编程】有关socket的创建和连接的笔记
  • 半导体制造检测新突破:XARION 激光超声无损检测系统的应用
  • element的el-table表格标题用css自定义是否必填,用添加伪类的方式标红色*
  • Ubuntu 安装 MariaDB
  • Spring Boot【三】
  • Java的类和对象
  • SMOTE | 使用SMOTE算法来处理不平衡数据的问题