TCP__滑动窗口__拥塞控制
目录
- 1. 滑动窗口
- 1.1 滑动窗口在哪里?
- 1.2 如何理解滑动窗口
- 1.3 滑动窗口的大小会变化吗?
- 1.4 其它问题
- 2. 拥塞控制
- 2.1 拥塞避免算法
- 2.1.1 怎么理解拥塞窗口
- 2.1.2 避免拥塞算法(慢启动)的思想
- 2.1.3 慢启动的阈值
- 2.1.4 总结:
- 3. 延迟应答
- 4. 面向字节流
- 5. 粘包问题
- 6. TCP异常情况
- 7. TCP小结
- 7.1 TCP/UDP 对比
- 7.2 用 UDP 实现可靠传输(经典面试题)
1. 滑动窗口
-
UDP_TCP 在上一篇文章,我们介绍了确认应答策略,即对每一个发送的数据段,都要给一个 ACK 确认应答,收到 ACK 后再发送下一个数据段。而这样做有一个比较大的缺点,就是性能较差,尤其是数据往返的时间较长的时候。
既然一发一收的方式性能较低,因此 TCP 的数据发送模式就变为一次性发送多条数据,大大提高性能(其实是将多个数据段的等待时间重叠在一起了) -
滑动窗口:TCP允许发送方在收到确认应答 ACK 之前发送多个数据段,从而提高发送效率的解决方案,这个解决方案就是滑动窗口。
- 上图的窗口大小指的是无需等待确认应答即可以继续发送数据的最大值 4000个字节(四个段)。换言之,凡是在窗口内的数据段,不需要等待任何ACK,都可以直接一次性发送。
- 收到第一个ACK后 (即2001),滑动窗口向右移动 (代表该报文已发送并且已确认),然后继续发送第五个段的数据,依次类推 ……
- 操作系统内核为了维护这个滑动窗口,需要开辟 发送缓冲区 来记录当前还有哪些数据没有应答,只有确认应答过的数据,才能从缓冲区删掉。换言之,即便数据已经发送出去,都必须暂时被保存在发送缓冲区的滑动窗口内,直到收到了该报文的应答ACK,才能通过窗口滑动,删除该报文。
- 窗口越大,则网络的吞吐率就越高;
1.1 滑动窗口在哪里?
-
滑动窗口是发送缓冲区内的一段区域。
如上图,我们将发送缓冲区抽象成三部分,左边为已经发送且收到确认应答的数据段,右边是未发生或者没数据的区域,而中间就是我们所谓的窗口区域,里面的数据可以直接一次性发送,并且这些数据段都是尚未收到确认应答的。
1.2 如何理解滑动窗口
-
讲了这么久的滑动窗口,如果接触个算法的伙伴们可能可以理解,但是没接触过的伙伴,感觉很晦涩啊。我们上面讲了滑动窗口就是发送缓冲区内的一段区域,那具体的滑动窗口我们就可以理解为一段 char 数组:
而滑动窗口通过右移来删除或新增指定报文,本质就是两个指针在移动(win_start++, win_end++),[win_start, win_end] 这段区域,就是所谓的滑动窗口!
-
那么这个滑动窗口的大小应该由谁来决定呢?
因为滑动窗口内的数据段是可以并发发送的,那么就需要考虑对方有没有能力能够接收这一批数据,即滑动窗口的大小是由对方的接收缓冲区的剩余大小决定的(窗口大小)!
-
窗口大小如何更新?
确认应答的报头中会包含 确认序号 和 窗口大小(win_size),假设发送的报文序号为 2000,那么确认序号 2001,窗口的起始位置 win_start = 确认序号,win_end = win_start + win_size。
-
连接刚建立完成,准备通信这一会,滑动窗口的大小应该是多少?
我们上面刚提及,三次握手建立连接,可不仅仅在 SYN、ACK,还有协商双方的起始序号。没错,在三次握手的时候,报头中还会记录自己的窗口大小,即,三次握手的同时也在协商双方的窗口大小。
因此,我们并不担心这个问题,因为这一系列问题,在连接建立的时候,就已经协商完毕。
-
1.3 滑动窗口的大小会变化吗?
-
变小或为零
对于发送方:一次性发送序号为 2000 3000 4000 5000 的报文,一共4000字节,并假设接收缓冲区大小为4000字节,并且上层迟迟没有读取数据,数据积攒在缓冲区内。
对于接收方:
收到 2000 报文,ACK: 2001,win size: 3000,win_start 向右移动导 2001,win_end 不变
收到 3000 报文,ACK: 3001,win size: 2000,win_start 向右移动导 3001,win_end 不变
收到 4000 报文,ACK: 4001,win size: 1000,win_start 向右移动导 4001,win_end 不变
收到 5000 报文,ACK: 5001,win size: 0,win_start 向右移动导 5001,win_end 不变此时,滑动窗口大小为 0,win start = win end。
上述这种情况,发送的速度大于接收并处理的速度,那么滑动窗口的大小就会变小,从 3000 – 2000 --1000,极端情况下,接收方上层迟迟不处理缓冲区的数据,那么接收缓冲区大小为 0 时,滑动窗口大小也就为 0。
-
变大
基于上述案例,假设某一时刻,接受方上层把缓冲区数据全部取走,那么此时接收缓冲区瞬间空闲出来,接受方就会给发送方发送一个窗口大小通知的报头(ACK: 5001, win: 4000)。此时,win_start 指向 5001,win_end = win_start + 4000。
-
对于上述现象,接收方一直不读取数据,接收缓冲区被写满,导致发送方滑动窗口的大小为 0,停止继续发送,随后接收缓冲区空闲出来,并同步了窗口大小报文,随后滑动窗口的大小就变大,这本质就是流量控制(接受能力弱时,发送慢一点,反之快一点),即滑动窗口就是流量控制的手段!
1.4 其它问题
假设发送的是 2000 3000 4000 5000 这四个序号的报文。
-
报文丢失如何处理?
-
最左侧报文丢失(含应答)
假设最左侧序号为 2000 的报文丢失,那剩余的三个报文的 ACK 则应该都是 1001。因为 2000 丢了,而 ACK 的确认序号的含义是,该序号之前的所有历史报文都已经确认收到。
当发送方收到了连续三个相同的确认序号的报文时,会立即将该确认序号对应的报文进行补发。而发送方也有充足的理由认为,丢失的报文是 2000,因为如果不是 2000,那么它应该要收到一个 确认序号为 2001 的 ACK,但它并没有。
当补发的 2000 报文收到后,接收方需要再次对补发的报文进行 ACK,但此时的确认序号为 5001,代表 5001 之前的报文都已经确认收到,刚刚丢的是 2000 的报文,其它没丢。
而我们把 “连续收到三个相同的确认序号的报文时,会立即将该确认序号对应的报文进行补发” 这种动作,称为快重传。 同时,这也是我们需要在还没有收到确认应答的情况下,暂时保存已经发送的报文的目的,以便在有需要的时候可以进行补发!而这类暂时保存的报文就在滑动窗口的区域内,因为滑动窗口内的报文都定义为:可以发送,但未收到应答的报文。
如果是最左侧的报文的应答丢失(即2001丢失),那也无所谓,因为其它三个报文的应答没有丢失,最后一个确认序号为 5001,接收方可以因此判断,序号为 5001 之前的报文,对方已经确认收到了,因此也不需要对该报文做出补发。
-
中间丢失
假设中间序号为 4000 的报文丢了,那么接收方会应答序号为 2000(ACK:2001)、3000(ACK:3001)的报文。既然这两个报文已经确认收到了,那么滑动窗口的左边界 win_start 就应该向右移动。因此序号 4000 的报文丢了,也就转化为最左侧报文丢失的情况
-
最右侧丢失
同理,最右侧丢失的情况,左侧和中间的报文已经被确认收到,滑动窗口的左边界 win_start 向右移动,直到丢失的那个数据段,同样转化为最左侧报文丢失的情况。
-
-
快重传 VS 超时重传(既然都有块重传,那么超时重传存在的意义?)
需要注意的是,快重传是有前提的:连续收到三个相同的确认序号的报文时,才会触发快重传机制。假设刚刚丢失的是序号 3000 的报文,那么也就只会收到两个 ACK 为 2001 的应答,最后还是得超时重传。因此,可以理解为超时重传才是常态,快重传只是在一定前提下,提高传输效率的手段。
2. 拥塞控制
-
尽管TCP 在可靠性和传输效率上做了许多工作,其中包括保证数据可靠性(检验和)、按序到达 + 去重、确认应答、丢包后的超时重传、通信前的连接建立、以及通过滑动窗口进行流量控制等,TCP 的可靠性,还体现在其考虑了网络情况。
TCP 确实会对丢包进行超时重传、快重传等可靠性机制,但这仅仅是对于小面积丢包的情况。如果出现大面积丢包(发了 1000个报文,丢了950个),发送方的 TCP 层会判断为,与其相关的网络出现了问题,并且不会选择进行重传。因为此时的网络情况可能已经非常拥塞了,还进行重传,只会加剧网络的负担和压力!
也不要认为,就我一台主机进行重传,多几个报文能咋滴,网络还扛不住我一台主机的数据了。这种想法是错误的,TCP 协议之所以称作协议,是因为只要使用了,那么众生平等,每个人都必须遵守相同的规则,如果你主机的 TCP 会在网络拥塞时选择重传,那么其它主机也会(网络中可不止一台主机)。那这样,网络就彻底瘫痪了!
2.1 拥塞避免算法
-
通信建立的早期阶段,往往不清楚当前的网络状态是如何的,加上网络中存在大量主机,可能当前的网络状态就已经比较拥堵了,如果这时候贸然发送大量的数据,就会给网络增加负担。
因此,TCP引入慢启动机制,先发少量的数据,探探路,摸清当前的网络拥堵状态,再决定按照多大的速度传输数据。
如上图所示,第一次先发送 1 个报文,收到应答后,再发 2 个、4 个、8 个 ……,也就是说,所谓慢启动,就是通信的前期,在探测网络状态时,采取的算法是 2 n 2^n 2n。此处引入一个概念称为拥塞窗口;发送开始的时候,定义拥塞窗口大小为 1;每次收到一个ACK应答,拥塞窗口加 1;
2.1.1 怎么理解拥塞窗口
-
在文章的一开始,我们介绍了滑动窗口,即单次发送数据量的多少由滑动窗口的大小决定。但这种理解是不太准确的,上述是为了介绍滑动窗口,只考虑对方的接受能力,没有考虑网络拥塞的情况。实际上,双端采用 TCP 协议进行通信时,不仅考虑对端的接收能力,还必须考虑如何发送数据,才尽可能的避免网络拥塞。
拥塞窗口是发送方定义的一个数字(假设单位:KB),发送数据量超过拥塞窗口的大小时,就会有很大的概率引起网络拥塞。
而网络状态时好时坏,状态好的时候,我们要尽量的多发数据,反之少发,而单次发送数据量的大小,是由滑动窗口决定的。因此,我们需要重新定义滑动窗口的大小:
滑动窗口大小 = m i n ( 拥塞窗口大小,对方的窗口大小 ) 滑动窗口大小 = min(拥塞窗口大小,对方的窗口大小) 滑动窗口大小=min(拥塞窗口大小,对方的窗口大小)
网络较为拥塞时,我们可以以拥塞窗口为大小进行发送数据;当网络状态 > 对方接受能力时,以对方的窗口大小为主。这样的话,就可以根据网络的状态,动态的调节滑动窗口的大小和发送方的发送量
2.1.2 避免拥塞算法(慢启动)的思想
-
由于前期不太清楚网络的健康状态,因此前期通过少量报文进行探测。如果该网络内的多主机探测了几次都能够正常的收到应答,那么就需要尽快的恢复通信速度。而慢启动的特点正是如此:前期慢,但增长快,可以保证中后期尽快的恢复到正常的网络通信。
并且,我们并不担心由于指数增长过快导致对方来不及接收的问题,因为滑动窗口的大小是由这二者的较小值决定的。
2.1.3 慢启动的阈值
-
由于拥塞窗口增长速度是指数级别的,增长速度非常快,为了不增长的那么快,因此引入慢启动阈值的概念,即:当拥塞窗口超过这个阈值的时候,不再按照指数方式增长,而是按照线性方式增长。
如图所示,通信初期,使用慢启动算法进行传输,当拥塞窗口大小指数增长到指定阈值后,改为线性增长。而后如果遇到网络拥塞,那么这一轮探测中,我们就较为准确的确定了当前拥塞窗口的大小( s s t h r e s h = 24 ssthresh = 24 ssthresh=24)。接着将当前拥塞窗口的大小 × 0.5 × 0.5 ×0.5,作为新一轮探测的阈值( n e w _ s s t h r e s h = s s t h r e s h × 0.5 new\_ssthresh = ssthresh × 0.5 new_ssthresh=ssthresh×0.5),而拥塞窗口的大小从 2 0 2^0 20 开始重新进入慢启动阶段,进行新一轮的网络探测。通过这种周期性的拥塞窗口调整,不断的进行拥塞控制,这种策略就称为拥塞控制算法。
-
需要注意的是,拥塞窗口的大小一直在增长,这是在不考虑对方接收能力的前提下(即对方接收能力无穷大),而实际的网络通信时发送数据的方式,并不是一直增长的,因为发送数据的大小还受到对方接受能力强弱的约束。
如果网络一直不会拥塞,那么拥塞窗口大小就会一直在增大(一直在变化),这的本质是一直在探测衡量网络状况。而当拥塞窗口大小增长到一定时,网络拥塞往往是不可避免的,而此时的拥塞窗口大小可以理解为 TCP 就可以较为清楚的知道,当前网络的拥塞上限是多少了,然后以当前网络的拥塞上限的一半作为新的慢启动阈值,再次探测网络的状态,直到再次遇到拥塞。
2.1.4 总结:
- 少量的丢包,我们仅仅是触发超时重传;大量的丢包,我们就认为网络拥塞;
- 当TCP通信开始后,网络吞吐量会逐渐上升,而随着网络发生拥堵,吞吐量会立刻下降;
- 拥塞控制,归根结底是 TCP 协议想尽可能快的把数据传输给对方,但是又要避免给网络造成太大压力的折中方案。
3. 延迟应答
-
如果接收数据的主机立刻返回ACK应答,这时候返回的窗口可能比较小。
假设接收端缓冲区为1M,一次收到了 500K 的数据,如果立刻应答,返回的窗口就是500K。 但实际上可能处理端处理的速度很快,10ms之内就把 500K 数据从缓冲区消费掉了。在这种情况下,接收端处理还远没有达到自己的极限,即使窗口再放大一些,也能处理过来。所以如果接收端稍微等一会再应答,比如等待 200ms 再应答,那么这个时候返回的窗口大小就是1M,发送方就能够一次性的发送更大的数据,来达到提高传输效率的目的。
一定要记得,窗口越大,网络吞吐量就越大,传输效率就越高。我们的目标是在保证网络不拥塞的情况下尽量提高传输效率。
-
并不是所有的包都可以延迟应答的:
- 数量限制:每隔 N 个包就应答一次
- 时间限制:超过最大延迟时间就应答一次
如果延迟时间过长,可能导致主机 A 误判为丢包,触发超时重传;延迟时间过短,起不到效果(上层读取数据较少,空出来的窗口大小也就比较少)。而具体的数量和超时时间,依操作系统不同也有差异,一般 N 取 2,超时时间取 200ms。
4. 面向字节流
-
创建一个TCP的 socket,同时在内核中创建一个发送缓冲区和一个接收缓冲区
- 调用write时,数据会先写入发送缓冲区中;
- 如果发送的字节数太长,会被拆分成多个TCP的数据包发出;
- 如果发送的字节数太短,就会先在缓冲区里等待,等到缓冲区长度差不多了,或者其他合适的时机发送出去;
- 接收数据的时候,数据也是从网卡驱动程序到达内核的接收缓冲区;
- 然后应用程序可以调用 read 从接收缓冲区拿数据;
- 另一方面,TCP的一个连接,既有发送缓冲区,也有接收缓冲区,那么对于这一个连接(同一个 sockfd),既可以读、也可以写数据,这个概念就叫做全双工。
-
而由于缓冲区的存在,TCP程序的读和写不需要一一匹配,例如:写100个字节数据时,可以调用一次 write 写100个字节,也可以调用100次 write,每次写一个字节;读100个字节数据时,也完全不需要考虑写的时候是怎么写的,既可以一次 read 100个字节,也可以一次 read 一个字节,重复100次。
-
文件操作时,向文件写入非常方便,但从文件读取时就很头大(需要用户自己做内容解析),这本质就是因为文件读写是面向字节流的,而它又不像 TCP,读写中间没有任何协议规定,也没有对数据做序列化与反序列化。
TCP 通信时,数据是从网络中做读写。因此在进行文件读写时,我们也可以像 TCP 通信那样,先给文件读写定制协议标准,数据写入前对数据做序列化,读取前做反序列化。这样一来,文件读写不就变得井然有序了吗。
5. 粘包问题
-
粘包问题中的 “包” ,是指的应用层的数据包。
在TCP的协议头中,虽然没有如同 UDP 一样的 “报文长度” 这样的字段,但是有一个序号字段。
TCP 是面向字节流的,站在传输层的角度,TCP是一个一个报文过来的,按照序号排序后放在缓冲区中。
站在应用层的角度,从接收缓冲区读取到应用层的数据是一连串的字节数据,每个报文之间是粘在一起的,无法确定从哪个部分到哪个部分是一个完整的应用层数据包,这就是所谓的粘包问题。
-
因此,在读取数据时,我们需要先定制协议,保证读取到的是一个完整的报文(能够将报头和有效载荷进行分离),就像我们在实现 网络版计算器 时,我们需要先对读取到的数据做 Decode,这个工作就是在进行解包!
-
解决粘包问题的几种方案:
- 对于定长的包,保证每次都按固定大小读取即可;例如 网络版计算器 中的 Request 结构,是固定大小的,那么就从缓冲区的起始位置开始按
sizeof(Request)
个字节依次读取即可。 - 对于变长的包,可以在包头的位置,添加一个自描述字段,用于约定一个包的总长度,从而就知道了包的结束位置。
- 对于变长的包,还可以在包和包之间使用明确的分隔符 (应用层协议,是程序猿自己来定的,只要保证分隔符不和正文冲突即可)。
- 对于定长的包,保证每次都按固定大小读取即可;例如 网络版计算器 中的 Request 结构,是固定大小的,那么就从缓冲区的起始位置开始按
-
对于 UDP 协议来说,不存在 “粘包问题”:
因为 UDP 是面向数据报的,UDP 是把一个一个数据报交付给应用层的,有很明确的数据边界。站在应用层的角度,使用UDP 的时候,要么收到完整的 UDP 报文,要么不收,不会出现 “半个” 的情况。
6. TCP异常情况
-
进程终止:网络 socket 通信时建立的链接(不管是 TCP or UDP)本质都是文件对象,如果进程终止(即便异常终止),那么连接对应的文件对象就与进程没有任何关系了,但连接结构还存在,因此操作系统会自动让连接进行四次挥手,然后关闭释放连接。
-
机器重启:操作系统提示用户是否选择关闭进程,也是进程终止的范畴,底层建立的连接都会自动四次挥手关闭。
-
机器掉电 (网线断开) :假设客户端网线断开,网络断开的动作与客户端正在通信的行为是异步的,因此客户端也没有机会向对方进行四次挥手,服务器并不知情对方网线断开了。
如果客户端长时间没有进行网络重连,由于 TCP 具有保活策略,因此会间歇的询问对端连接是否还存在,在几次询问都没有收到应答时,服务器会自动释放本端的连接(但由于 TCP 的保护策略时间比较长,所以基本在应用层自己实现,重连次数达到一定时,自动 close 断开连接,应用层的保活策略称为 心跳机制)。后来,客户端重连并新建一个连接,重新给服务端发起连接建立请求,服务端也新建立一个连接,原本的旧连接也依旧可以通过保活策略进行释放。
如果网线断开后迅速进行重连,那么可能服务端还没有开始保活策略,继续正常向客户端通信,而客户端原本的连接已经关闭。这种情况,客户端会向服务端发送 RST 重置连接。
7. TCP小结
- 在可靠性上:
- 校验和
- 序列号(按序到达)
- 确认应答
- 超时重发
- 连接管理
- 流量控制
- 拥塞控制
- 在传输效率上:
- 滑动窗口
- 快速重传
- 延迟应答
- 捎带应答
- 其它:
- 定时器(超时重传定时器,保活定时器,TIME_WAIT 定时器等)
7.1 TCP/UDP 对比
-
我们说了 TCP 是可靠连接,那么是不是 TCP 一定就优于 UDP 呢?
- TCP 用于可靠传输的情况,应用于文件传输,重要状态更新等场景。
- UDP 用于对高速传输和实时性要求较高的通信领域,例如:早期的QQ、视频传输等,另外UDP可以用于广播。
归根结底,TCP 和 UDP 都是程序员的工具,什么时机用,具体怎么用,还是要根据具体的需求场景去判定。
7.2 用 UDP 实现可靠传输(经典面试题)
- 这个问题的本质就是在问,TCP 是如何保证可靠性的,因此只需要参考 TCP 的可靠性机制,在应用层实现类似的逻辑就可以了。例如:引入序列号,保证数据顺序;引入确认应答,确保对端收到了数据;引入超时重传,如果隔一段时间没有应答,就进行补发数据 …… 等等。