博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
浅析GPU通信技术(上)--GPUDirect P2P
阅读量:5875 次
发布时间:2019-06-19

本文共 2207 字,大约阅读时间需要 7 分钟。

1. 背景

  GPU在高性能计算和深度学习加速中扮演着非常重要的角色, GPU的强大的并行计算能力,大大提升了运算性能。随着运算数据量的不断攀升,GPU间需要大量的交换数据,GPU通信性能成为了非常重要的指标。NVIDIA推出的GPUDirect就是一组提升GPU通信性能的技术。但GPUDirect受限于PCI Expresss总线协议以及拓扑结构的一些限制,无法做到更高的带宽,为了解决这个问题,NVIDIA提出了NVLink总线协议。

  这个系列文章会对以上GPU通信技术做详细的介绍,旨在帮助开发者更好的利用这些技术对自己的应用做相应的优化。

  本篇文章会先介绍一下GPUDirect技术,并着重介绍GPUDirect Peer-to-Peer(P2P)技术。

2. GPUDirect介绍

2.1 简介

  GPUDirect技术有如下几个关键特性:

  加速与网络和存储设备的通信:

  GPU之间的Peer-to-Peer Transers

  GPU之间的Peer-to-Peer memory access

  RDMA支持

  针对Video的优化

  下面对最主要的几个技术做分别介绍。

2.2 Shared Memory

  2010年6月最先引入的是GPUDirect Shared Memory 技术,支持GPU与第三方PCI Express设备通过共享的pin住的host memory实现共享访问从而加速通信。

ef6c40d834142101af71b4ffc2a48f837a6ae52a

2.3 P2P

  2011年,GPUDirect增加了相同PCI Express root complex 下的GPU之间的Peer to Peer(P2P) Direct Access和Direct Transers的支持。

1a59c4aec6d58bac10d9ec1d90748ac0713521f5

2.4 RDMA

  2013年,GPUDirect增加了RDMA支持,使得第三方PCI Express设备可以bypass host memory直接访问GPU。

6b67e590f56394879171f2f8b2e95e9d0691fbab

3. GPUDirect P2P

3.1 P2P简介

  GPUDirect Peer-to-Peer(P2P) 技术主要用于单机GPU间的高速通信,它使得GPU可以通过PCI Express直接访问目标GPU的显存,避免了通过拷贝到 host memory作为中转,大大降低了数据交换的延迟。

  以深度学习应用为例,主流的开源深度学习框架如TensorFlow、MXNet都提供了对GPUDirect P2P的支持,NVIDIA开发的NCCL(NVIDIA Collective Communications Library)也提供了针对GPUDirect P2P的特别优化。

  通过使用GPUDirect P2P技术可以大大提升深度学习应用单机多卡的扩展性,使得深度学习框架可以获得接近线性的训练性能加速比。

3.2 P2P虚拟化

  随着的普及,越来越多技术迁移到云上,在云上使用GPUDirect技术,就要解决GPUDirect虚拟化的问题。

  这里我们着重讨论下GPUDirect Peer-to-Peer虚拟化的问题

  使用PCI Pass-through虚拟化技术可以将GPU设备的控制权完全授权给VM,使得虚拟机里的GPU driver可以直接控制GPU而不需要Hypervisor参与,性能可以接近物理机。

  但是同一个虚拟机内的应用却无法使用P2P技术与GPU实现通信。下面分析一下无法使用P2P的原因。

  首先我们需要知道一个技术限制,就是不在同一个Intel IOH(IO Hub)组下面PCI-e P2P通信是不支持的,因为Intel CPU之间是QPI协议通信,PCI-e P2P通信是无法跨QPI协议的。所以GPU driver必须要知道GPU的PCI拓信息,同一个IOH组下面的GPU才能使能GPUDiret P2P。

  但是在虚拟化环境下,Hypervisor虚拟的PCI Express拓扑结构是扁平的,GPU driver无法判断真实的硬件拓扑所以无法开启GPUDirect P2P。

  为了让GPU driver获取到真实的GPU拓扑结构,需要在Hypervisor模拟的GPU PCI配置空间里增加一个PCI Capability,用于标记GPU的P2P亲和性。这样GPU driver就可以根据这个信息来使能P2P。

  另外值得一提的是,在PCI Pass-through时,所有的PCI Express通信都会被路由到IOMMU,P2P通信同样也需要路由到IOMMU,所以Pass-through下的P2P路径还是会比物理机P2P长一点,延迟大一点。

4. 实测

  下面是我们在阿里云GN5实例(8卡Tesla P100)上对GPUDirect P2P延迟做的实测数据。

  GPU P2P矩阵如下:

e4c4c6b23deb9ba9e592e69ed7a747ae1d2f68ec

  通信延迟对比如下:

5fd381f520fb2ec5eec9adbad0875405d58fe189

  我们看到:使能GPUDirect P2P后GPU间通信延迟相比CPU拷贝降低近一半。

  下图是在GN5实例上使用MXNet对经典卷积神经网络的图像分类任务的训练性能的加速比:

8757bbd9cc55f7bfc57bba761c6281d673c0e8b4

  MXNet在支持P2P的GN5实例上有非常好的单机扩展性,训练性能接近线性加速。

原文发布时间为:2018-06-4

本文作者:撷峰

本文来自云栖社区合作伙伴“”,了解相关信息可以关注“”。

转载地址:http://dlkix.baihongyu.com/

你可能感兴趣的文章
Y2161 Hibernate第三次考试 2016年8月18日 试卷分析
查看>>
Angular CLI 使用教程指南参考
查看>>
PHP 程序员的技术成长规划
查看>>
用于守护进程的出错处理函数
查看>>
AppCan可以视为Rexsee的存活版
查看>>
【转】SQL SERVER 2005 数据库状态为“可疑”的解决方法
查看>>
Revit API 创建带箭头的标注
查看>>
jetty启动报错Unsupported major.minor version 51.0
查看>>
Xamarin.Android开发实践(七)
查看>>
彩色图像上执行Mean Shift迭代搜索目标 ,维加权直方图 + 巴氏系数 + Mean Shift迭代...
查看>>
深入理解JavaScript系列
查看>>
strtol 函数用法
查看>>
eclipse内存溢出设置
查看>>
搭建jenkins环境(linux操作系统)
查看>>
VS 2015 GIT操作使用说明
查看>>
上海办理房产税变更
查看>>
每天一个linux命令(52):scp命令
查看>>
CMOS Sensor Interface(CSI)
查看>>
linq中的contains条件
查看>>
HDU 5590 ZYB's Biology 水题
查看>>