当前位置：首页 > article >正文

Python3爬虫教程-HTTP基本原理

article 2025/3/7 0:06:11

1，URL组成部分详解
2，HTTP和HTTPS
3，HTTP请求过程
4，请求（Request）
- 请求方法（Request Method）
- 请求的网址（Request URL）
- 请求头（Request Headers）
- 请求体（Request Body）
5、响应（Response）
- 响应状态码（Response Status Code）
- 响应体（Response Body）
6、HTTP/2.0
- 二进制分帧层
- 多路复用
- 流量控制
- 服务端推送

1，URL组成部分详解

URL是uniform Resource Locator的简写，统一资源定位符
一个URL由以下几部分组成：
在这里插入图片描述

scheme：代表的是访问的协议，一般为http或https以及ftp等
host：主机名，域名，比如www.baidu.com
port：端口号，http协议是80端口，https协议是443端口
path：查找路径。比如：www.baidu.com/trending/now，后面的trending/now就是path
query-string：查询字符串，用来传参。比如：www.baidu.com/s?wd=python&a=1,后面的wd=python和a=1就是查询字符串
anchor：锚点,后台一般不用管。前端用来做页面定位

HTTP：全称是Hyper Text Transfer Protocol，中文名叫做超文本传输协议；HTTP协议是从网络传输超文本数据到本地浏览器的传送协议，它能保证高效而准确地传送超文本文档。
HTTPS：全称是Hyper Text Transfer Protocol over Secure Socket Layer，是以安全为目标的HTTP通道，简单将是HTTP的安全版，即在HTTP下加入SSL层，简称HTTPS。

我们在浏览器中输入一个 URL，回车之后便会在浏览器中观察到页面内容。解析这个过程

1，浏览器向网站所在的服务器****发送了一个请求；网页服务器****接收到这个请求后进行处理和解析；服务器返回对应的响应接着传回给浏览器；浏览器对返回的响应进行解析（相应中包含页面的源代码等内容，所以需解析）；网页呈现
2， Chrome 浏览器开发者模式下的 Network 监听组件
- Name：请求的名称，一般会将 URL 的最后一部分内容当作名称。
- Status：响应的状态码，这里显示为 200，代表响应是正常的。通过状态码，我们可以判断发送了请求之后是否得到了正常的响应。
- Type：请求的文档类型。这里为 document，代表我们这次请求的是一个 HTML 文档，内容就是一些 HTML 代码。
- Initiator：请求源。用来标记请求是由哪个对象或进程发起的。
- Size：从服务器下载的文件和请求的资源大小。如果是从缓存中取得的资源，则该列会显示 from cache。
- Time：发起请求到获取响应所用的总时间。

请求方法：用于标识请求客户端请求服务端的方式，常见的请求方式有两种：GET和POST
- GET请求中的参数包含在URL里面，数据可以在URL中看到，也就是Query信息部分；而POST请求的URL不回包含这些数据，数据都是通过表单形式传输的，会包含在请求体中，
- GET请求提交的数据最多只有1024字节，而POST方式没有限制
其他请求方法：
- HEAD 类似于 GET 请求，只不过返回的响应中没有具体的内容，用于获取报头
- PUT 从客户端向服务器传送的数据取代指定文档中的内容
- DELETE 请求服务器删除指定的页面
- CONNECT 把服务器当作跳板，让服务器代替客户端访问其他网页
- OPTIONS 允许客户端查看服务器的性能
- TRACE 回显服务器收到的请求，主要用于测试或诊断

请求头用来说明服务器要使用的附加信息，比较重要的信息有Cookie、Referer、Uaer-Agent等
常见的头信息：
- Accept：请求报头域，用于指定客户端可接受哪些类型的信息。
- Accept-Language：指定客户端可接受的语言类型。
- Accept-Encoding：指定客户端可接受的内容编码。
- Host：用于指定请求资源的主机 IP 和端口号，其内容为请求 URL 的原始服务器或网关的位置。从 HTTP 1.1 版本开始，请求必须包含此内容。
- Cookie：也常用复数形式 Cookies，这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它的主要功能是维持当前访问会话。
- Referer：此内容用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理，如做来源统计、防盗链处理等。
- User-Agent：简称 UA，它是一个特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以****伪装为浏览器；如果不加，很可能会被识别为爬虫。
- Content-Type：也叫互联网媒体类型（Internet Media Type）或者 MIME 类型，在 HTTP 协议消息头中，它用来表示具体请求中的媒体类型信息。