详解:HTTP/HTTPS协议
HTTP协议
一.HTTP是什么
HTTP,全称超文本传输协议,是一种用于分布式、协作式、超媒体信息系统的应用层协议。HTTP往往是基于传输层TCP协议实现的,采用的一问一答的模式,即发一个请求,返回一个响应。
Q:什么是超文本?
A:文本就是HTML,css等,超文本更厉害,内容不仅有文本有的,还可以有图片视频音频等二级制数据。
Q:什么是应用层协议,什么是传输层协议?
TCP/IP协议是传输层协议,简单来说,这个协议只管传输,像是一个搬运工,不管对数据的加工和处理。而HTTP协议是应用层协议,其不关心内容是怎么传输的,只关心数据加工处理等操作。
二.HTTP协议格式
我们可以使用Fiddler等抓包工具来获取HTTP请求或响应的报文内容。
1.请求
下面是我们访问哔哩哔哩时的请求(太多展示不过来,删除了一部分,但不影响):
首行由三部分组成:方法+url+协议版本
header:请求的属性,冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示header部分结束,即body和header中间是有一行空行的,上面也特意展示出了这个细节。
Body:空行后面的内容都是Body;Body允许为空字符串;如果Body存在,则在header中会有⼀个 Content-Length属性来标识Body的长度;body可以是空的。
2.响应
我们对服务器发起请求,服务器会给我们响应,紧接着上面的访问哔哩哔哩的例子:
首行由三部分组成:版本号+状态码+状态码解释。
header:请求的属性,冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示header部分结束,即body和header中间是有一行空行的,上面也特意展示出了这个细节。
Body:空行后面的内容都是Body;Body允许为空字符串;如果Body存在,则在header中会有⼀个 Content-Length属性来标识Body的长度;如果服务器返回一个html页面,那么html页面内容就是在body中;body可以是空的。
三.HTTP请求
下面对上面请求报文内容中出现内容进行介绍。
1.url介绍
首先介绍一下url是什么。
url,全称统一资源定位符,也就是大家所谓的网址。下面是url的常见结构:
协议名:这个协议不一定的http协议,还可以是其他协议;可以省略,省略默认是http。
登录信息:一般省略,现在网站进行身份认证一般不通过url进行。
服务器地址:服务器的ip地址或域名,两者可以通过DNS域名解析系统完成相互转换。
端口号:区分应用程序,可以省略。
带层次的文件路径:用于访问某个主机上某个程序管理的某些资源,可以省略。
查询字符串:对访问资源的补充说明,使用键值对结构,键值对之间使用&分隔.键和值之间使用=分隔;可以省略,省略后相当于/. 。
片段标识符:主要用于页面内跳转,可以省略。
从上面我们可以看到一些特殊字符在url中已经被使用了,如果我们还想使用这些字符的话就要进行转义了。
转义的规则如下:将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY格式。
2.方法(method)
方法告诉服务器我们这次请求想要干什么。
方法 | 说明 | 支持的HTTP协议版本 |
GET | 获取资源 | 1.0、1.1 |
POST | 传输实体主体 | 1.0、1.1 |
PUT | 传输文件 | 1.0、1.1 |
HEAD | 获取报文首部 | 1.0、1.1 |
DELETE | 删除服务器指定资源 | 1.0、1.1 |
OPTIONS | 返回服务器所⽀持的请求⽅法 | 1.0 |
TRACE | 回显服务器端收到的请求 | 1.0 |
CONNECT | 要求用隧道协议连接代理 | 1.0 |
LINK | 建立和资源之间的联系 | 1.0 |
UNLINK | 断开连接关系 | 1.0 |
1)GET方法
使用的最多。首行的第一部分为GET;URL的查询字符串(query string)可以为空;body部分为空,如果需要GET给服务器发送一些数据,通过查询字符串传递过去。
2)POST方法
使用的比较少。首行的第一部分为POST;URL的查询字符串一般为空;body一般不为空。典型应用场景:登录和上传。
补充:GET和POST的区别:
两者没有本质区别,经常能够混用。从两个单词的语义可以得到GET的获取数据,而POST是提交数据;GET的body一般为空,需要传递的数据通过query string传递,POST的query string一般为空,需要传递的数据通过body传递;GET请求一般是幂等的,POST请求一般是不幂等的(如果多次请求得到的结果⼀样,就视为请求是幂等的);GET可以被缓存,POST不能被缓存。
3.报头(header)
header中使用了键值对结构,下面是报头种类:
1)Host:表示服务器主机的地址和端口;
2)Content-Length:表示body中的数据长度;
3)Content-Type:表示请求的body中的数据格式;
4)User-Agent:表示浏览器/操作系统的属性;
5)Referer:表示这个页面是从哪个页面跳转过来的;
6)Cookie:
Cookie是浏览器运行网页在本地硬盘存储数据的一种机制,这个数据可能是客户端(网页)自行通过JS写入的,也可能来自于服务器(服务器在HTTP响应的header中通过Set-Cookie字段给浏览器返回数据)(反正是程序员自行定义的),Cookie是按照键值对的方式来存储数据的,Cookie是按照域名维度来组织的。
每个不同的域名下都可以有不同的Cookie,不同网站之间的Cookie并不冲突。
浏览器保存了Cookie后,在后续给服务器发送请求的时候就会把这些Cookie键值对放到请求的header中传给服务器。一个典型的应用场景是登录认证,为什么不用每次来CSDN都要重新输入一遍账号密码,答案就在这。
四.状态码
用来表示访问一个页面的结果。下面是一些常见的状态码:
状态码 | 状态码解释 | 介绍 |
200 | OK | 表示访问成功 |
404 | Not Found | 没有找到资源 |
403 | Forbidden | 访问被拒绝,比如一些需要权限的页面 |
405 | Method Not Allowed | 不支持所有方法 |
500 | Internal Server Error | 服务器出现内部错误 |
504 | Gateway Timeout | 请求超时 |
302 | Move temporarily | 临时重定向 |
301 | Moved Permanently | 永久重定向 |
总结:
类别 | 原因 | |
1XX | informational(信息性状态码) | 接收的请求正在处理 |
2XX | Success(成功状态码) | 请求正常处理完毕 |
3XX | Redirection(重定向状态码) | 需要进行附加操作以完成请求 |
4XX | Client Error(客户端错误状态码) | 服务器无法处理请求 |
5XX | Server Error(服务器错误状态码) | 服务器处理请求出错 |
HTTPS
一.HTTPS是什么
HTTPS是HTTP+SSL/TLS,本质也是应用层协议,只不过是在HTTP上加一个加密层。如果我们单使用HTTP协议进行通讯,黑客运营商等可以通过控制设备来获取我们的传输的数据,这是有很大的安全隐患的。因此我们引入了加密层来保证我们传数据是安全的。
二.HTTPS的工作过程
1.对称加密
对称加密就是通过同一个“密钥”,能把明文转化成密文,也能把密文转成明文。如果我们使用对称加密,那么我们双方都要知道密钥是什么。由于一个服务器要为很多个客户端提供服务,大家每个人都使用一个单独的密钥不太可能,那我们就需要在传输的时候把密钥也传过去。
但这又引出了一个新的问题,传输的时候传密钥,不就是把保险柜密码贴在保险柜上嘛,没用。因此我们要传密钥的话要对密钥进行加密。但问题又来了,给密钥加密了,那么密钥要谁解密呢?如果在传一个密钥,那不就成套娃了嘛,无穷无尽,密钥套密钥,最终总会有一个密钥没有被加密。
所以说我们要引入非对称加密。
2.非对称加密
非对称加密要用到两个密钥,一个公钥,一个私钥。公钥可以对明文加密,私钥可以对密文解密,反过来也是可以的,私钥可以对明文加密,公钥可以对密文解密。但这个方法有一个缺点就是效率太低了。
对此我们使用了对称加密和非对称加密的结合版。使用 非对称加密 去加密 对称加密 的密钥。
你以为这个就安全了吗?这里就要介绍一下中间人攻击力了。先给大家举一个生活中的例子。我们知道车钥匙通过向车发送电波可以控制车门的开关。我们怎么实现没有车钥匙也能打开车。
当车主人按下开门的按钮时,我们可以通过电波仪器收集车钥匙发送的电波,这时车主人可能以为刚刚没按上,一般会再按一次。这时,我们收集这次的开门电波,并将上次的开门电波发给车。这样我们就可以一直持有一个有效开门电波,可以把车主的车给开走了(bushi)。这就属于中间人攻击。
在非对称加密中,黑客可以劫持网络设备,当客户端通过网络设备向服务器获取公钥的时候,黑客可以截取这条信息,并自己生成一对公钥和私钥,将自己生成的公钥发回客户端。同时网络设备给服务器发请求获取公钥,服务器返回后将这个真公钥保存好。
客户端会将数据通过我们给它的假公钥加密,到了网络设备后,黑客可以通过自己生成的假密钥进行解密,这样就知道了客户端发送的数据是什么。我们再通过刚刚获得的真公钥加密数据与服务器通讯。服务器就会误以为黑客是客户端,将数据发给了网络设备,这样信息就泄露了。
那么没有办法了吗?其实不然,我们引入证书。
证书是由第三方认证机构给服务器颁发的。在服务器搭建的时候,将服务器的域名、公钥等信息发给第三方认证机构生成数字证书,证书上记录了第三方认证机构和服务器的信息(域名、公钥)和数字签名(本质是校验和)。
数字签名是怎么产生的?认证机构会生成一对公钥(pub2)和私钥(pri2),使用证书中的关键信息生成校验和,再使用私钥(pri2)对这个校验和进行加密。
客户端获得证书后进行下面两次处理:
1)使用同样是算法对证书中的字段进行处理,获得校验和1;
2)通过认证机构提供的公钥(pub2)对数字签名进行解密,得到校验和2;
对比校验和1和校验和2是否相等,如果相等,说明证书没有被修改过;如果不相等,说明证书被人修改了。
Q:我们怎么保证我们用的公钥不是黑客生成的?
A:认证机构的公钥不是通过网络传输的,而是操作系统内置的。
Q:如果黑客修改了证书上的公钥呢?
A:如果修改了,那么校验和1就会变,与校验和2匹配不上。
Q:如果黑客自己伪造一个证书呢?
A:服务器在申请证书的时候会提交域名,域名会不同。