零拷贝的好处

  • 减少或避免不必要的CPU数据拷贝,从而释放CPU去执行其他任务
  • 零拷贝机制能减少用户空间和操作系统内核空间的上下文切换
  • 减少内存的占用

DMA技术

DMA
DMA

在没有DMA技术之前,I/O的过程如上图所示:

  1. CPU 发出对应的指令给磁盘控制器,然后返回;
  2. 磁盘控制器收到指令后,于是就开始准备数据,会把数据放入到磁盘控制器的内部缓冲区中,然后产生一个中断
  3. CPU 收到中断信号后,停下手头的工作,接着把磁盘控制器的缓冲区的数据一次一个字节地读进自己的寄存器,然后再把寄存器里的数据写入到内存,而在数据传输的期间 CPU 是无法执行其他任务的。

可以看到,整个数据的传输过程,都要需要 CPU 亲自参与搬运数据的过程,而且这个过程,CPU 是不能做其他事情的。

为了解决这一问题,中间层的思路就又出来了。后期引入DMA技术,在进行I/O处理的时候(设备和内存进行数据传输的时候),数据搬运的工作全部交给 DMA 控制器,而 CPU 不再参与任何与数据搬运相关的事情,这样 CPU 就可以去处理别的事务

DMA
DMA

具体过程:

  1. 用户进程调用 read 方法,向操作系统发出 I/O 请求,请求读取数据到自己的内存缓冲区中,进程进入阻塞状态;
  2. 操作系统收到请求后,进一步将 I/O 请求发送 DMA,然后让 CPU 执行其他任务;
  3. DMA 进一步将 I/O 请求发送给磁盘;
  4. 磁盘收到 DMA 的 I/O 请求,把数据从磁盘读取到磁盘控制器的缓冲区中,当磁盘控制器的缓冲区被读满后,向 DMA 发起中断信号,告知自己缓冲区已满;
  5. DMA 收到磁盘的信号,将磁盘控制器缓冲区中的数据拷贝到内核缓冲区中,此时不占用 CPU,CPU 可以执行其他任务
  6. 当 DMA 读取了足够多的数据,就会发送中断信号给 CPU;
  7. CPU 收到 DMA 的信号,知道数据已经准备好,于是将数据从内核拷贝到用户空间,系统调用返回;

传统的文件传输

文件传输
文件传输

首先,期间共发生了 4 次用户态与内核态的上下文切换,因为发生了两次系统调用,一次是 read() ,一次是 write(),每次系统调用都得先从用户态切换到内核态,等内核完成任务后,再从内核态切换回用户态。

上下文切换到成本并不小,一次切换需要耗时几十纳秒到几微秒,虽然时间看上去很短,但是在高并发的场景下,这类时间容易被累积和放大,从而影响系统的性能。

其次,还发生了 4 次数据拷贝,其中两次是 DMA 的拷贝,另外两次则是通过 CPU 拷贝的,下面说一下这个过程:

  • 第一次拷贝,把磁盘上的数据拷贝到操作系统内核的缓冲区里,这个拷贝的过程是通过 DMA 搬运的。
  • 第二次拷贝,把内核缓冲区的数据拷贝到用户的缓冲区里,于是我们应用程序就可以使用这部分数据了,这个拷贝到过程是由 CPU 完成的。
  • 第三次拷贝,把刚才拷贝到用户的缓冲区里的数据,再拷贝到内核的 socket 的缓冲区里,这个过程依然还是由 CPU 搬运的。
  • 第四次拷贝,把内核的 socket 缓冲区里的数据,拷贝到网卡的缓冲区里,这个过程又是由 DMA 搬运的。

优化思路

减少上下文的切换

首先, 对于I/O的处理,用户态是无权限的,只能切换到内核态进行处理,所以减少上下文的切换的一个思路就是:减少系统调用

减少拷贝的次数

通过对上述的分析,我们知道传统的文件传输,涉及到了四次的copy过程。在一些场景中,我们知道其实数据是完全不必copy到用户空间的,因为应用程序一般不会对数据进行加工。

零拷贝

mmap + write

在前面我们知道,read() 系统调用的过程中会把内核缓冲区的数据拷贝到用户的缓冲区里,于是为了减少这一步开销,我们可以用 mmap() 替换 read() 系统调用函数。

mmap + write 示意图
mmap + write 示意图

流程:

  1. 应用进程通过mmap后,DMA将磁盘文件放入内核缓冲区,然后用户程序和内核共享该缓冲区
  2. 然后用户程序调用write,将数据写入socket缓冲区,(内部而言,是cpu内核缓冲区的内容copy到socket缓冲区)
  3. 然后DMA将socket缓冲区放入到网卡缓冲区中

拷贝次数 从 4 -> 3 上下文切换还是发生了4次

sendfile

通过减少系统调用,实现零copy技术

sendfile
sendfile

sendfile可以替代readwrite两个系统调用,这样就可以减少一次系统调用,避免两次上下文切换。其次,该系统调用,可以直接把内核缓冲区里的数据拷贝到 socket 缓冲区里,不再拷贝到用户态,这样就只有 2 次上下文切换,和 3 次数据拷贝。如上图所示。

但是这还不是真正的零拷贝技术,如果网卡支持 SG-DMA(The Scatter-Gather Direct Memory Access)技术(和普通的 DMA 有所不同),我们可以进一步减少通过 CPU 把内核缓冲区里的数据拷贝到 socket 缓冲区的过程(只进行了 2 次数据拷贝)。

网卡DMA
网卡DMA
  • 第一步,通过 DMA 将磁盘上的数据拷贝到内核缓冲区里;
  • 第二步,缓冲区描述符和数据长度传到 socket 缓冲区,这样网卡的 SG-DMA 控制器就可以直接将内核缓存中的数据拷贝到网卡的缓冲区里,此过程不需要将数据从操作系统内核缓冲区拷贝到 socket 缓冲区中,这样就减少了一次数据拷贝;

这就是所谓的零拷贝(*Zero-copy*)技术,因为我们没有在内存层面去拷贝数据,也就是说全程没有通过 CPU 来搬运数据,所有的数据都是通过 DMA 来进行传输的

零拷贝技术的文件传输方式相比传统文件传输的方式,减少了 2 次上下文切换和数据拷贝次数,只需要 2 次上下文切换和数据拷贝次数,就可以完成文件的传输,而且 2 次的数据拷贝过程,都不需要通过 CPU,2 次都是由 DMA 来搬运。

所以,总体来看,零拷贝技术可以把文件传输的性能提高至少一倍以上

总结

  1. 使用mmap + write (4次上下文切换,上次文件拷贝)
    • 减少一次文件copy
  2. 使用sendfile(2吃上下文切换,三次文件拷贝)
    • 减少了2次上下文切换
    • 减少一次文件copy
  3. 网卡支持SG-DMA(2次上下文切换, 两次文件拷贝(不需要CPU进行操作))
    • 减少了2次上下文切换
    • 减少了2次文件拷贝

使用零拷贝技术的项目

kafka

使用零拷贝技术,消费者(consumer)从Kafka消费数据,Kafka从磁盘读数据然后发送到网络上去,数据一共发生了四次传输的过程。其中两次是 DMA 的传输,另外两次,则是通过 CPU 控制的传输。通过零拷贝技术,避免了文件的多余的copy次数,以及CPU的参与,进而能够更好的提升整体的性能,优化CPU的使用。

Java transferTo

public static void copyFileByChannel(File source, File dest) throws
        IOException {
    try (FileChannel sourceChannel = new FileInputStream(source)
            .getChannel();
         FileChannel targetChannel = new FileOutputStream(dest).getChannel()) {
        for (long count = sourceChannel.size(); count > 0; ) {
            long transferred = sourceChannel.transferTo(
                    sourceChannel.position(), count, targetChannel);
            sourceChannel.position(sourceChannel.position() + transferred);
            count -= transferred;
        }
    }
}

references

  1. 原来 8 张图,就可以搞懂「零拷贝」了