零拷贝Zero Copy
零拷贝(Zero - copy)
零拷贝(Zero - copy)
零拷贝技术指在计算机执行操作的时候,CPU不需要先将数据从一个内存区域复制到另一个内存区域,从而减少上下文切换和CPU拷贝时间,实现CPU的零参与,彻底消除CPU在这方面的负载
- 减少数据在内核缓冲区和用户进程缓冲区之间反复的IO拷贝操作
- 减少用户进程地址空间和内核地址空间之间因为上下文切换而带来的CPU开销
实现零拷贝的主要技术是 DMA数据传输技术和 mmap内存区域映射技术
虚拟内存(Virtual Memory)
由于操作系统的进程与进程之间是共享 CPU 和内存资源的,因此需要一套完善的内存管理机制防止进程之间内存泄漏的问题。为了更加有效地管理内存并减少出错,现代操作系统提供了一种对主存的抽象概念,即是虚拟内存(Virtual Memory)。虚拟内存为每个进程提供了一个一致的、私有的地址空间它让每个进程产生了一种自己在独享主存的错觉(每个进程拥有一片连续完整的内存空间)。
LInux I/O读写方式:
Linux 提供了轮询、I/0 中断以及 DMA 传输这 3 种磁盘与主存之间的数据传输机制。
- 轮询方式是基于死循环对 I/0 端口进行不断检测。
- I/0 中断方式是指当数据到达时,磁盘主动向 CPU 发起中断请求,由CPU 自身负责数据的传输过程
- DMA 传输则在 I/0 中断的基础上引入了 DMA 磁盘控制器,由 DMA 磁盘控制器负责数据的传输降低了 I/0 中断操作对 CPU 资源的大量消耗。
DMA数据传输
DMA 的全称叫直接内存访问(Direct Memory Access),是一种允许外围设备(硬件子系统)直接访问系统主内存的机制。也就是说,基于 DMA 访问方式,系统主内存于硬盘或网卡之间的数据传输可以绕开 CPU 的全程调度。目前大多数的硬件设备,包括磁盘控制器、网卡、显卡以及声卡等都支持DMA 技术。
整个数据传输操作在一个 DMA 控制器 的控制下进行的。CPU 除了在数据传输开始和结束时做一点处理外(开始和结束时候要做中断处理),在传输过程中 CPU可以继续进行其他的工作。这样在大部分时间里,CPU 计算和 //O 操作都处于并行操作,使整个计算机系统的效率大大提高。
有了 DMA 磁盘控制器接管数据读写请求以后,CPU 从繁重的 I/0 操作中解脱,数据读取操作的流程如下:
- 用户进程向 CPU 发起 read 系统调用读取数据,由用户态切换为内核态,然后一直阻塞等待数据的返回。
- CPU 在接收到指令以后对 DMA 磁盘控制器发起调度指令。
- DMA 磁盘控制器对磁盘发起 I/0 请求,将磁盘数据先放入磁盘控制器缓冲区,CPU 全程不参与此过程。
- 数据读取完成后,DMA 磁盘控制器会接受到磁盘的通知,将数据从磁盘控制器缓冲区拷贝到内核缓冲区。
- DMA 磁盘控制器向 CPU 发出数据读完的信号,由 CPU 负责将数据从内核缓冲区拷贝到用户缓冲区。
- 用户进程由内核态切换回用户态,解除阻塞状态,然后等待 CPU 的下一个执行时间钟。
传统I/O方式
为了更好的理解零拷贝解决的问题,我们首先了解一下传统 I/O方式存在的问题。在 Linux 系统中传统的访问方式是通过 write() 和 read()两个系统调用实现的,通过 read() 函数读取文件到到缓存区中,然后通过 write()方法把缓存中的数据输出到网络端口,伪代码如下:
- read(file fd, tmp buf, len);
- write(socket fd, tmp buf, len);
接下来分别对应传统 I/0 操作的数据读写流程,整个过程涉及2次 CPU 拷贝、2次 DMA 拷贝总共 4次拷贝,以及 4 次上下文切换,下面简单地阐述一下相关的概念。
- 上下文切换:当用户程序向内核发起系统调用时,CPU将用户进程从用户态切换到内核态;当系统调用返回时,CPU 将用户进程从内核态切换回用户态。
- CPU拷贝:由 CPU 直接处理数据的传送,数据拷贝时会一直占用CPU的资源。
- DMA拷贝:由 CPU 向DMA磁盘控制器下达指令,让 DMA控制器来处理数据的传送,数据传送完毕再把信息反馈给 CPU,从而减轻了 CPU 资源的占有率。
传统读操作
当应用程序执行 read 系统调用读取一块数据的时候,如果这块数据已经存在于用户进程的页内存中就直接从内存中读取数据;如果数据不存在,则先将数据从磁盘加载数据到内核空间的读缓存(readbuffer)中,再从读缓存拷贝到用户进程的页内存
- read(file fd, tmp buf, len);
基于传统的 I/0 读取方式,read 系统调用会触发 2次上下文切换,1次 DMA 拷贝和1次 CPU 拷贝发起数据读取的流程如下:
- 用户进程通过 read()函数向内核(kernel)发起系统调用,上下文从用户态(user space)切换为内核态(kernel space)
- CPU利用DMA控制器将数据从主存或硬盘拷贝到内核空间(kernelspace)的读缓冲区(readbuffer)。
- CPU将读缓冲区(read buffer)中的数据拷贝到用户空间(user space)的用户缓冲区(userbuffer)。
- 上下文从内核态(kernelspace)切换回用户态(user space),read 调用执行返回。
传统写操作
当应用程序准备好数据,执行 write 系统调用发送网络数据时,先将数据从用户空间的页缓存拷贝到内核空间的网络缓冲区(socket buffer)中,然后再将写缓存中的数据拷贝到网卡设备完成数据发送
- write(socket fd, tmp buf, len);
零拷贝原理(主要是减少数据拷贝次数
在 Linux 中零拷贝技术主要有 3 个实现思路:·
- 用户态直接 I/0:应用程序可以直接访问硬件存储,操作系统内核只是辅助数据传输。这种方式依旧存在用户空间和内核空间的上下文切换,硬件上的数据直接拷贝至了用户空间,不经过内核空间。因此直接 I/0 不存在内核空间缓冲区和用户空间缓冲区之间的数据拷贝。
- 减少数据拷贝次数:在数据传输过程中,避免数据在用户空间缓冲区和系统内核空间缓冲区之间的CPU拷贝,以及数据在系统内核空间内的CPU拷贝,这也是当前主流零拷贝技术的实现思路
- 写时复制技术:写时复制指的是当多个进程共享同一块数据时,如果其中一个进程需要对这份数据进行修改,那么将其拷贝到自己的进程地址空间中,如果只是数据读取操作则不需要进行拷贝操作。
mmap + write
一种零拷贝方式是使用 mmap + write 代替原来的 read + write 方式,减少了1次 CPU 拷贝操作。mmap 是 Linux 提供的一种内存映射文件方法,即将一个进程的地址空间中的一段虚拟地址映射到磁盘文件地址,mmap+write 的伪代码如下:
- tmp buf= mmap(file fd, len);
- write(socket fd, tmp buf, len);
使用 mmap 的目的是将内核中读缓冲区(read buffer)的地址与用户空间的缓冲区(user buffer)进行映射,从而实现内核缓冲区与应用程序内存的共享,省去了将数据从内核读缓冲区(read buffer)拷贝到用户缓冲区(user buffer)的过程,然而内核读缓冲区(read buffer)仍需将数据到内核写缓冲区(socket buffer),大致的流程如下图所示:
基于 mmap + write 系统调用的零拷贝方式,整个拷贝过程会发生4次上下文切换,1次CPU拷贝和2 次DMA拷贝,用户程序读写数据的流程如下:
- 用户进程通过 mmap()函数向内核(kerel)发起系统调用,上下文从用户态(user space)切换为内核态(kernelspace)。
- 将用户进程的内核空间的读缓冲区(read buffer)与用户空间的缓存区(user buffer)进行内存地址映射。
- CPU利用DMA控制器将数据从主存或硬盘拷贝到内核空间(kernelspace)的读缓冲区(readbuffer)。
- 上下文从内核态(kernel space)切换回用户态(user space),mmap 系统调用执行返回
- 用户进程通过 write() 函数向内核(kernel)发起系统调用,上下文从用户态(user space)切换为内核态(kernel space)。
- CPU将读缓冲区(read buffer)中的数据拷贝到的网络缓冲区(socket buffer)
- CPU利用DMA控制器将数据从网络缓冲区(socket buffer)拷贝到网卡进行数据传输。
- 上下文从内核态(kernel space)切换回用户态(user space),write 系统调用执行返回.
mmap 主要的用处是提高 I/0 性能,特别是针对大文件。对于小文件,内存映射文件反而会导致碎片空间的浪费,因为内存映射总是要对齐页边界,最小单位是4KB,一个5KB 的文件将会映射占用 8KB 内存,也就会浪费 3 KB 内存。
sendfile
mmap 的拷贝虽然减少1次拷贝,提升了效率,但也存在一些隐藏的问题。当 mmap 一个文件时如果这个文件被另一个进程所截获,那么 write 系统调用会因为访问非法地址被 SIGBUS 信号终止SIGBUS 默认会杀死进程并产生一个 coredump,服务器可能因此被终止。
基于 sendfile 系统调用的零拷贝方式,整个拷贝过程会发生2 次上下文切换,,1次CPU拷贝和2 次DMA拷贝,用户程序读写数据的流程如下:
- 用户进程通过 sendfile() 函数向内核(kernel)发起系统调用,上下文从用户态(user space)切换为内核态(kernel space)。
- CPU 利用 DMA 控制器将数据从主存或硬盘拷贝到内核空间(kernelspace)的读缓冲区(readbuffer)。
- CPU 将读缓冲区(read buffer)中的数据拷贝到的网络缓冲区(socket buffer)
- CPU 利用 DMA 控制器将数据从网络缓冲区(socket buffer)拷贝到网卡进行数据传输。
- 上下文从内核态(kernel space)切换回用户态(user space),sendfile 系统调用执行返回。
相比较于 mmap 内存映射的方式,sendfile 少了2 次上下文切换,但是仍然有1次 CPU 拷贝操作。
sendfile 存在的问题是用户程序不能对数据进行修改,而只是单纯地完成了一次数据传输过程。
sendfile + DMA gather copy
Linux 2.4 版本的内核对 sendfile 系统调用进行修改,为 DMA 拷贝引入了 gather 操作。它将内核空间(kernel space)的读缓冲区(read buffer)中对应的数据描述信息(内存地址、地址偏移量)记录到相应的网络缓冲区(socket buffer)中,由 DMA 根据内存地址、地址偏移量将数据批量地从读缓冲区(read buffer)拷贝到网卡设备中,这样就又省去了内核空间中仅剩的1次 CPU 拷贝操作sendfile 的伪代码如下:
- sendfile(socket fd, file fd, len);
基于 sendfile + DMA gather copy 系统调用的零拷贝方式,整个拷贝过程会发生 2 次上下文切换、0次CPU拷贝以及 2次DMA拷贝,用户程序读写数据的流程如下:
- 用户进程通过 sendfile() 函数向内核(kerel)发起系统调用,上下文从用户态(user space)切换为内核态(kernelspace)。
- CPU 利用 DMA 控制器将数据从主存或硬盘拷贝到内核空间(kernelspace)的读缓冲区(readbuffer)。
- CPU 把读缓冲区(read buffer)的文件描述符(file descriptor)和数据长度拷贝到网络缓冲区(socket buffer)。
- 基于已拷贝的文件描述符(file descriptor)和数据长度,CPU 利用 DMA 控制器的 gather/scatter操作直接批量地将数据从内核的读缓冲区(read buffer)拷贝到网卡进行数据传输。
- 上下文从内核态(kernelspace)切换回用户态(user space),sendfile 系统调用执行返回。
sendfile + DMA gather copy 拷贝方式同样存在用户程序不能对数据进行修改的问题,而且本身需要硬件的支持,”它只适用于将数据从文件拷贝到 socket 套接字上的传输过程。
splice
sendfile 只适用于将数据从文件拷贝到 socket 套接字上,同时需要硬件的支持,这也限定了它的使用范围。Linux 在 2.6.17 版本引入 splice 系统调用,不仅不需要硬件支持,还实现了两个文件描述符之间的数据零拷贝。splice 的伪代码如下:
- splice(fd in, off in, fd out, off out, len, flags);
splice 系统调用可以在内核空间的读缓冲区(read buffer)和网络缓冲区(socket buffer)之间建立管道(pipeline),从而避免了两者之间的 CPU 拷贝操作。
基于 splice 系统调用的零拷贝方式,整个拷贝过程会发生2次上下文切换,0次CPU 拷贝以及 2次DMA拷贝,用户程序读写数据的流程如下:
- 用户进程通过 splice() 函数向内核(kernel)发起系统调用,上下文从用户态(user space)切换为内核态(kernelspace)。
- CPU 利用 DMA 控制器将数据从主存或硬盘拷贝到内核空间(kernelspace)的读缓冲区(readbuffer)
- CPU 在内核空间的读缓冲区(read buffer)和网络缓冲区(socket buffer)之间建立管说(pipeline)
- CPU 利用 DMA 控制器将数据从网络缓冲区(socket buffer)拷贝到网卡进行数据传输。
- 上下文从内核态(kerne space)切换回用户态(user space),splice 系统调用执行返回。
写时复制
在某些情况下,内核缓冲区可能被多个进程所共享,如果某个进程想要这个共享区进行 write 操作,由于 write 不提供任何的锁操作,那么就会对共享区中的数据造成破坏,写时复制的引入就是 Linux 用来保护数据的。
写时复制指的是当多个进程共享同一块数据时,如果其中一个进程需要对这份数据进行修改,那么就需要将其拷贝到自己的进程地址空间中。这样做并不影响其他进程对这块数据的操作,每个进程要修改的时候才会进行拷贝,所以叫写时拷贝。这种方法在某种程度上能够降低系统开销,如果某个进程永远不会对所访问的数据进行更改,那么也就永远不需要拷贝。
缓冲区共享
缓冲区共享方式完全改写了传统的 I/0 操作,因为传统 I/0 接口都是基于数据拷贝进行的,要避免拷贝就得去掉原先的那套接口并重新改写,所以这种方法是比较全面的零拷贝技术,目前比较成熟的一个方案是在 Solaris 上实现的 fbuf(Fast Buffer,快速缓冲区)。
fbuf 的思想是每个进程都维护着一个缓冲区池,这个缓冲区池能被同时映射到用户空间(user space)和内核态(kernel space),内核和用户共享这个缓冲区池,这样就避免了一系列的拷贝操作。
缓冲区共享的难度在于管理共享缓冲区池需要应用程序、网络软件以及设备驱动程序之间的紧密合作,而且如何改写 API目前还处于试验阶段并不成熟。
无论是传统 I/0 拷贝方式还是引入零拷贝的方式,2次DMA Copy是都少不了的,因为两次 DMA 都是依赖硬件完成的。下面从 CPU拷贝次数、DMA 拷贝次数以及系统调用几个方面总结一下上述几种I/O 拷贝方式的差别。
Linux零拷贝对比:
无论是传统IO拷贝还是引入零拷贝,2次DMA Copy都是不可少的,因为两次DMA都是依赖硬件完成的
零拷贝具体应用实现
仅例举几种具体实现
- Java NIO零拷贝
- Netty零拷贝
- RocketMQ和Kafka零拷贝
Java NIO 对零拷贝的实现,主要包括
- 基于内存映射(mmap)方式的MappedByteBuffer
- 基于 sendfile 方式的 FileChannel
Netty 中的零拷贝和上面提到的操作系统层面上的零拷贝不太一样,我们所说的 Netty 零拷贝完全是基于(Java 层面)用户态的,它的更多的是偏向于数据操作优化这样的概念,具体表现在以下几个方面:
Netty 通过 DefaultFileRegion 类对 java.nio.chánnels.FileChannel 的 tranferTo() 方法进行包装在文件传输时可以将文件缓冲区的数据直接发送到目的通道(Channel)
- BvteBuf 可以通过 wrap 操作把字节数组、BvteBuf、BvteBuffer 包装成一个 BvteBuf 对象, 进而避免了拷贝操作
- ByteBuf 支持 slice 操作,因此可以将 BvteBuf 分解为多个共享同一个存储区域的 ByteBuf,避免了内存的拷贝
- Netty提供了CompositeByteBuf类,它可以将多个 BvteBuf 合并为一个逻辑上的 ByteBuf,避免了各个 BvteBuf 之间的拷贝其中第1条属于操作系统层面的零拷贝操作,后面3条只能算用户层面的数据操作优化。
RocketMQ 选择了mmap +write这种零拷贝方式,适用于业务级消息这种小块文件的数据持久化和传输;而Kafka采用的是sendfile 这种零拷贝方式,适用于系统日志消息这种高吞吐量的大块文件的数据持久化和传输。但是值得注意的一点是,Kafka的索引文件使用的是mmap+write方式,数据文件使用的是sendfile 方式。
Buf,避免了各个 BvteBuf 之间的拷贝其中第1条属于操作系统层面的零拷贝操作,后面3条只能算用户层面的数据操作优化。
RocketMQ 选择了mmap +write这种零拷贝方式,适用于业务级消息这种小块文件的数据持久化和传输;而Kafka采用的是sendfile 这种零拷贝方式,适用于系统日志消息这种高吞吐量的大块文件的数据持久化和传输。但是值得注意的一点是,Kafka的索引文件使用的是mmap+write方式,数据文件使用的是sendfile 方式。