HTTP/HTTPS ①-代理 || URL || GET/POST || CDN
这里是Themberfue
闻名世界的HTTP/HTTPS协议到底怎么个事呢?
让我们一起深入HTTP协议吧~~~
❤️❤️❤️❤️
HTTP简介
✨HTTP(HyperText Transfer Protocol,超文本传输协议),是活跃在应用层的一个协议,在 TCP 之上;其最初的版本于1991年正式发布,这个版本被命名为 HTTP/0.9;发展至今,发布的版本的有 HTTP/1.0、HTTP/1.1、HTTP/2.0、HTTP/3.0;不过目前最广泛使用的还是HTTP/1.1。
✨HTTP协议采用一问一答的模式,一个简单的 请求-响应 的协议,它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应;它是万维网的基础,支持从网页加载到 API 调用等多种通信方式。
✨凡事皆有优劣,HTTP也不例外:
无状态性:无法自动保存客户端上下文,需通过 Cookie 或 Session 实现状态管理。
明文传输:数据未加密,容易被窃听。可通过 HTTPS(HTTP + SSL/TLS)增强安全性。
性能瓶颈:HTTP/1.1 中每个请求需要单独建立连接,存在较高的延迟。
抓包工具
✨学习 HTTP报文格式,通常需要搭配抓包工具进行学习,抓包工具可以获取到网络的数据包,随后进行解析以便程序员阅读学习调试等,抓包工具其实相当于一个代理
代理(Proxy)
代理是一种中间服务器或软件,位于客户端和目标服务器之间,充当“中间人”的角色。它接收客户端的请求,转发给目标服务器,并将服务器的响应返回给客户端。简单来说,代理在通信过程中承担了“中转站”的职责。
代理的作用
- 隔离和隐藏:
- 隐藏客户端的真实 IP 地址,提高安全性和隐私性。
- 访问控制:
- 过滤请求,例如屏蔽某些内容或限制某些访问。
- 缓存:
- 存储常用资源,减少目标服务器的负载,加快访问速度。
- 协议转换:
- 在不同的协议间进行转换,例如从 HTTP 转为 HTTPS。
- 抓包分析:
- 拦截和查看通信内容,用于调试和分析网络流量。
代理的分类
按功能分类
正向代理:
- 客户端直接向代理服务器发送请求,代理服务器代表客户端向目标服务器请求资源。
- 用途:访问受限资源、隐藏客户端身份。
- 示例:使用代理服务器访问被防火墙阻止的网站。
反向代理:
- 目标服务器将流量定向到代理服务器,代理服务器根据请求将其转发给内部真实服务器。
- 用途:负载均衡、保护内部服务器。
- 示例:Nginx 作为反向代理,用于分发用户请求到多个后端服务器。
按透明性分类
- 透明代理:
- 不修改请求内容或用户感知,客户端无需配置代理。
- 示例:企业网络中的流量过滤代理。
- 匿名代理:
- 隐藏客户端的 IP 地址,但目标服务器知道这是通过代理访问的。
- 高匿代理:
- 完全隐藏客户端身份,目标服务器无法察觉有代理的存在。
按协议分类
- HTTP 代理:
- 专门处理 HTTP 请求和响应。
- HTTPS 代理:
- 支持加密传输,通常用于 HTTPS 流量。
- SOCKS 代理:
- 通用型代理,支持多种协议(HTTP、FTP 等)。
- FTP 代理:
- 专为文件传输协议(FTP)设计的代理。
抓包工具的代理角色
抓包工具(如 Wireshark、Fiddler、Burp Suite 等)通过充当代理,拦截客户端与服务器之间的通信,获取网络流量信息。
工作原理:
- 客户端请求被抓包工具代理截获。
- 抓包工具分析、修改(可选)并转发请求到目标服务器。
- 目标服务器响应的流量同样被抓包工具截获并返回给客户端。
常见用途:
- 调试:分析 HTTP 请求头、响应头、数据包内容。
- 性能优化:评估数据传输效率。
- 安全测试:检测是否存在敏感信息泄露或漏洞。
总结
代理在网络通信中起到“中间人”的作用,不同类型的代理适用于不同场景。抓包工具通过扮演代理角色,可以全面了解和控制通信数据流,广泛应用于开发、调试和安全分析。
Fildder
这里我们使用 Fildder 这个工具进行抓包学习,Fildder是专门抓取 HTTP/HTTPS协议的抓包工具,功能简单,易上手,适合用来学习。Fildder官网
我们直接下载免费版即可,免费版已经够用了
下载完成之后,打开左上角的 Tools 里的 Options,通过进行简单的配置,才可正常使用其功能
能勾的尽量勾上,勾完之后,点击 OK,再确认信任并安装人家的证书,才可以正式使用,否则只能重新下载再来一遍!!!
HTTP报文格式
✨设置完这些后,我们可以看到左侧有许多的请求-响应罗列出来;这些请求-响应的颜色也各不相同;红色的通常表示报错、蓝色的则表示这个请求得到了一个网页、绿色的表示得到了一个JS、灰色的表示这个响应的数据已经被缓存了。
✨这里我们以B站的请求来进行讲解~~~
以该请求为例,该请求获得了B站的网页,点击这个请求,也可以从右边看到其请求和响应的信息。通过记事板打开,可以更加清晰地看到
✨不过我们先从上方的请求开始讲起
请求通常分为:首行、请求头、空行、正文;不过并非所有请求都有正文,有的请求有,有的则没有。空行用来标识请求头结束
✨接着是响应,响应与请求类似,分为:首行、响应头、空行、正文;一般的响应都是携带正文的,正文便是服务器通过客户端发送的请求所返回的真实有效内容。空行用来标识响应头结束
✨正确理解并掌握HTTP协议的报文格式,在开发以及调试的过程中,其帮助是非常大的
URL
✨URL(Uniform Resource Locator,统一资源定位符),URL 是用来描述网络资源位置的字符串,是我们访问网页、下载文件、使用 API 等操作的基础。简单来说,URL 就是资源的“地址”。
✨一个标准的 URL 可以分为如下几个部分:
协议://用户名:密码@主机:端口/路径?查询参数#片段标识
https://www.example.com:443/path/to/resource?name=John&age=30#section1
解析
协议(Protocol):
- 决定如何访问资源。
- 例子:
http
,https
,ftp
,file
,mailto
等。- 示例:
https
用户名:密码(User:Password,可选):
- 用于身份验证。
- 目前登录验证不会在 URL 里直接显示
- 示例:
username:password@
主机(Host):
- 指定资源所在的服务器,可以是域名或 IP 地址。
- 域名和 IP 地址可以相互转化,通常通过DNS域名解析系统来完成
- 示例:
www.example.com
端口号(Port,可选):
- 表示服务使用的网络端口。省略时,默认使用协议的标准端口。
- 示例:443(HTTPS 默认端口)、80(HTTP 默认端口)。
路径(Path):
- 表示资源在服务器上的具体位置,通常以
/
分隔层级。- 示例:
/path/to/resource
查询参数(Query,可选):
- 以键值对的形式传递额外信息,键和值用 = 分隔,多个参数用
&
分隔。- 此处的键值对通常由程序员自定义编写
- 示例:
?name=John&age=30
片段标识(Fragment,可选):
- 定位到资源中的某个部分,用于浏览器页面定位。
- 常用于文档类型的网站
- 示例:
#section1
特点
- 唯一性:
- URL 是资源的唯一地址,确保网络上的资源不冲突。
- 人类可读:
- 通过语义化的路径和参数设计,用户能大致理解资源内容。
- 区分大小写:
- 大多数情况下路径区分大小写,但主机名不区分大小写。
URL 与 URI 的区别
URI(统一资源标识符) 是一个更广义的概念,用来标识资源,可以是:
- URL:定位资源,强调访问方式和位置。
- URN:命名资源,不强调访问方式。
- 示例:
urn:isbn:0451450523
(表示一本书的 ISBN)。总结:
- URL 是 URI 的子集,是一种用于定位的 URI。
URLencode (URL编码)
URL 只能包含字母、数字和少量特殊字符(如
-
,_
,.
)。不允许的字符需要进行编码:
编码规则:
- 使用
%
加上字符的 ASCII 十六进制值。- 对于中文等字符一般使用 utf8 进行编码
- 示例:'空格' 编码为 %20、'你' 编码为 %E4%BD%A0。
应用场景:
- 传递包含特殊字符的查询参数。
- 解决非 ASCII 字符的兼容性问题。
https://cn.bing.com/search?q=osi%E4%B8%83%E5%B1%82%E7%BD%91%E7%BB%9C%E6%A8%A1%E5%9E%8B&gs_lcrp=EgRlZGdlKgcIARBFGMIDMgcIABBFGMIDMgcIARBFGMIDMgcIAhBFGMIDMgcIAxBFGMIDMgcIBBBFGMIDMgcIBRBFGMIDMgcIBhBFGMIDMgcIBxBFGMID0gEMMzI5NjUzMDRqMGoxqAIIsAIB&FORM=ANAB01&adppc=EdgeStart&PC=CNNDDB&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN&mkt=zh-CN HTTP/1.1
✨上述 q=osi 后的内容就对其进行了编码; 编码操作,不仅仅是针对标点符号,对于某些非英文的字符也要进行编码;实际在使用时,浏览器为了用户看得更加方便,并不会直接显示编码后的字符串,而是显示原来的内容;通过抓包工具我们查看到编码后的内容。
HTTP方法
✨HTTP方法有很多,常见的类似 GET、PUT、POST、DELETE;它们称为 HTTP 动词;它们定义了客户端与服务器之间通信的操作类型,用于描述客户端对服务器资源的意图;描述了这次请求的目的是什么,要做什么。
方法 说明 支持的HTTP协议版本 GET 获取资源 1.0、1.1 POST 传输实体主体 1.0、1.1 PUT 传输文件 1.0、1.1 HEAD 获得报文首部 1.0、1.1 DELETE 删除文件 1.0、1.1 OPTIONS 询问支持的方法 1.1 TRACE 最终路径 1.1 CONNECT 要求用隧道协议连接代理 1.1 LINK 建立和资源之间的联系 1.1 UNLINK 断开连接关系 1.1 ✨尽管有这么多的方法,我们只需要记住四个比较常见的即可:GET、PUT、POST、DELETE。不过还可以更进一步缩小:HTTP的方法有十斗,GET占八斗,POST独占一斗,剩下的方法共分一斗~~~。所以,GET 和 PUT 是开发中最常用的方法。
✨类似的,获取网页内容,例如获取html、css、js等资源都是通过 GET。提交表单、注册、登录、上传文件都是通过 POST。
GET和POST
✨GET和POST是HTTP协议中最常用的两种方法,学习并掌握其区别是非常重要的,这同样也是经典的面试题。
💎语义
GET的意思为 "获取",通常用于获取服务器资源或数据;它只请求服务器返回信息,而不会对服务器状态产生任何副作用。
POST的意识为 "上传",通常用于提交数据或创建资源;其目的是向服务器发送数据,以进行创建、修改或处理操作;它用于触发服务器的某种动作,可能会对服务器状态产生影响。
💎携带数据的方式
GET
- 数据通过 URL 的 查询字符串(Query String) 传递。
- 格式:
?key1=value1&key2=value2
。- 示例:
GET /search?q=example HTTP/1.1 Host: www.example.com
- 特点:
- 数据会直接暴露在 URL 中。
- 有长度限制(取决于浏览器和服务器的实现,一般为 2KB ~ 8KB)。
- IE浏览器时代对数据长度有限制,现在的主流浏览器一般都没有对长度进行限制。
- 至少在 HTTP 标准文档中,都没有明确规定 URL 或者 body 有长度上的限制。
POST
- 数据通过 HTTP 请求的 请求体(Body) 传递。
- 示例:
POST /submit HTTP/1.1 Host: www.example.com Content-Type: application/json { "name": "Alice", "age": 25 }
- 特点:
- 数据不显示在 URL 中,更适合传递敏感信息。
- 没有明确的长度限制(受服务器配置影响)。
❤️需要注意的是:并非所有的GET都是query string查询字符串携带数据,也并非所有的POST都是通过body正文携带数据。GET也可以携带body正文,POST也可以通过query string携带数据。不过较为少见,一般不作讨论~~~
💎幂等性
幂等性(Idempotency)是计算机科学和网络通信中的一个重要概念,指的是某个操作无论被执行多少次,所产生的效果与执行一次的效果相同。简单来说:一次和多次执行某个操作的结果是一样的。请求一定时,得到的响应也是一定的。
GET
- 幂等:
- 多次发送相同的
GET
请求,服务器的状态不会改变。- 用于 查询操作。
POST
- 非幂等:
- 多次发送相同的
POST
请求,可能会导致重复操作(如多次提交表单)。- 用于 创建或提交操作。
💎数据缓存
数据缓存我们下面再细讲
GET
- 数据可被浏览器、代理服务器缓存。
- 适合用于获取静态资源或不频繁变化的数据。
- 由于 GET 被设计为幂等的,其获取的资源通常会被浏览器缓存。
POST
- 默认不会缓存。
- 每次请求都会向服务器提交数据,适合动态操作。
- 由于 POST 被设计为 非幂等的,其通常认为是不能被缓存的。
💎安全性
GET
- 不安全:
- 数据暴露在 URL 中,容易被记录在浏览器历史、日志文件或其他地方。
- 即使是 HTTPS,URL 中的数据仍可能被其他应用读取(如浏览器插件)。
POST
- 更安全:
- 数据位于请求体中,避免直接暴露。
- 适合传递密码等敏感数据,但仍需通过 HTTPS 加密确保安全。
❤️如果要说哪个安全,哪个不安全;并没有绝对的安全,或者两者都不安全,尽管 POST 的数据位于请求体中,没有直接暴露,但通过简单的抓包工具依然可以获取到数据。所以对数据的加密传输才是保证安全的最有效途径~~~
URL 的可读性
GET
- URL 包含参数,清晰可见。
- 适合需要被用户分享、收藏或直接访问的场景(如搜索结果页)。
POST
- 数据隐藏在请求体中,URL 简洁。
- 适合需要提交大量数据的操作(如表单提交)。
使用场景
GET
- 用于 只获取资源,不修改服务器状态 的请求。
- 示例:
- 获取网页内容。
- 查询天气信息。
- 检索数据库记录。
POST
- 用于 创建资源或提交数据 的请求。
- 示例:
- 用户注册。
- 提交评论。
- 上传文件。
性能
GET
- 较快:
- 因为数据传递在 URL 中,不需要解析请求体。
- 适合小量数据请求。
POST
- 较慢:
- 需要处理和解析请求体,带来一定开销。
- 适合提交复杂数据或大文件。
❓GET只能传输文本,POST可以传输二进制
✨这种说法并不准确。实际上,GET 和 POST 都可以传输文本和二进制数据,它们的区别不在于能传输的数据类型,而在于传输数据的方式和用途。
在 GET方法中,数据通常被编码为 URL 的查询字符串一部分(
?key=value
)。由于 URL 有长度限制(取决于浏览器或服务器),GET 不适合传输大数据。 既可以传输纯文本,也可以传输经过编码的二进制数据(如 Base64 编码后放入 URL)。常用于发送简单的键值对参数,例如查询和检索数据。在 POST方法中,数据放在请求体中,不受 URL 长度限制。更适合传输大数据或复杂的数据结构。支持多种格式,包括纯文本、二进制数据(如图片、文件等)、JSON、XML 等。POST 常用于提交表单、上传文件或发送复杂的 JSON 数据。
✨URL 是可见的,给人一种只能传输文本的错觉。但实际上,只要将二进制数据进行编码,也可以通过 GET 传输。
✨POST 的请求体支持直接传输大数据或复杂的二进制数据,导致一些人认为它特定适合于传输非文本内容。
❤️如果需要传输大数据或复杂数据结构,建议使用 POST,因为其不受 URL 长度限制,且更安全(数据不直接暴露在 URL 中)。
❓关于 URL 长度限制
协议标准没有规定 URL 长度限制:
HTTP/1.1 协议中没有规定 URL 的长度上限。但在实际应用中,不同浏览器、服务器和代理的实现会对 URL 长度施加限制:
- 浏览器限制:
- Chrome 和 Firefox 等主流浏览器支持的 URL 长度在 2,000-8,000 字节左右。
- 服务器限制:
- Apache 默认支持的 URL 长度为 8,192 字节(可配置)。
- IIS 默认限制为 16,384 字节。
- 代理服务器限制:
- 某些代理服务器对 URL 长度可能限制更严格。
现实中的长度问题:
- 太长的 URL 在一些旧设备或中间件中可能会被截断或拒绝处理。
- 因此,GET 请求通常被建议用来传输短小的数据。
总结
维度 GET POST 传输方式 数据通过 URL 传递 数据通过请求体传递 数据长度 有长度限制 无明确限制 安全性 较低(数据暴露在 URL) 较高(数据隐藏在请求体) 是否缓存 支持 默认不缓存 幂等性 幂等 非幂等 使用场景 获取资源 提交数据或创建资源
维度 GET POST 操作意图 获取资源,不改变服务器状态 提交数据,可能改变服务器状态 数据传输方向 客户端向服务器请求数据 客户端向服务器发送数据 结果的影响 不对服务器产生副作用(只读操作) 通常会对服务器状态产生副作用 适用场景 检索、查询、查看操作 提交表单、创建资源、触发处理 是否期望返回结果 通常返回资源数据(如 HTML、JSON) 通常返回操作的结果或确认(如成功状态) GET:获取资源,查询数据,轻量操作。想要查看内容 —— 只问,不动。
POST:提交数据,更新或创建,适合复杂请求。想要上传内容 —— 提交,执行操作。
CDN
✨前面在 PUT 和 POST 提到的数据缓存便和CDN有关;浏览器通常有个缓存机制,在访问网页时,浏览器会将一些静态的网页内容缓存到本地硬盘里,以便在下一次访问该网页时不需要额外的访问服务器,便可更快的获取某些静态内容,将资源用在更需要的地方。
✨CDN(Content Delivery Network,内容分发网络)是一种通过分布式的服务器网络,将内容快速、安全地传递到用户附近的服务器上,从而优化内容访问速度和可靠性的方法。
CDN 的核心概念
- 分布式架构:
CDN 在全球或区域范围内部署多个缓存服务器(称为边缘节点),这些服务器储存用户请求的内容。- 就近访问:
当用户请求某个资源时,CDN 会将请求路由到离用户最近的缓存节点,而不是直接访问原始服务器(源站)。- 缓存机制:
边缘节点缓存静态内容(如图片、视频、CSS、JavaScript 等),减少对源站的访问压力。
CDN 的作用
提高访问速度:
- 用户可以从离自己最近的 CDN 节点获取资源,减少网络延迟。
- 特别是在跨国访问或长距离传输时,CDN 的优势尤为明显。
减轻源站压力:
- 大量请求由 CDN 节点处理,源站只需处理动态请求或缓存未命中的请求。
- 减少源站的带宽占用和服务器负载。
增强稳定性:
- 多节点分布式架构可以容忍单点故障。
- 即使某些节点失效,流量可以快速切换到其他可用节点。
提高安全性:
- CDN 提供的功能如 DDoS 防护、WAF(Web 应用防火墙)等,可以保护源站免受攻击。
- IP 隐藏:用户请求只到 CDN 节点,而不是直接暴露源站 IP。
降低成本:
- 通过减少带宽占用和服务器负载,间接节省服务器维护和扩展成本。
CDN 的工作原理
DNS 解析:
- 当用户请求某个域名时,CDN 的智能 DNS 会将请求解析到离用户最近的 CDN 节点。
缓存命中:
- 如果节点缓存中有所需资源,直接返回给用户。
- 如果没有缓存(缓存未命中),节点向源站请求资源并缓存,以便后续用户访问时加速响应。
动态加速:
- 对于动态内容,CDN 提供优化的传输路径和协议以减少延迟。
CDN 的典型应用场景
- 网站加速:
- 提供静态资源的快速加载(如图片、CSS、JS 文件等)。
- 对于大型网站,CDN 可显著改善用户体验。
- 视频点播和直播:
- 视频内容通过 CDN 分发到全球各地,用户可快速流畅播放。
- 在线游戏:
- 降低网络延迟,提升玩家体验。
- 软件分发:
- 大型文件(如操作系统更新、应用程序)通过 CDN 快速分发到用户手中。
CDN 的主要挑战
- 缓存过期管理:
- 动态内容或频繁更新的静态内容可能需要及时清理过期缓存,保持一致性。
- 费用:
- 大规模使用 CDN 会增加运营成本,尤其对小型企业而言。
- 内容保护:
- 防止未授权的用户通过 CDN 获取受保护的内容。
总结
CDN 是现代互联网基础设施的重要组成部分,它通过分布式缓存和智能路由技术,为用户提供更快、更可靠的内容访问体验,同时减轻源站的压力,提高网站的安全性和稳定性。
✨如果对 RESTful API 感兴趣的,可以移步该文章:一文搞懂RESTful API
今天的内容到这就结束了,下节我们将深入更多HTTP报头的含义
毕竟不知后事如何,且听下回分解
❤️❤️❤️❤️❤️❤️❤️