典型深度学习框架在单GPU环境中的模型训练性能分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:daliangengbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习(Deep Learning, DL)的快速发展,为了帮助从业者快速编写和训练模型,出现了大量的深度学习框架。这些框架按照编程范式可以分为两类:声明式编程框架和命令式编程框架。TensorFlow和PyTorch分别是这两类中最受欢迎的框架,分别使用静态和动态计算图来表示计算过程,前者能在运行之前对计算图进行优化,而后者能更好地处理变长输入。由于两者使用了不同的计算图理念,其在框架设计、任务调度和计算图执行等方面上有很大差异,使得对比分析两个框架的各部分的性能变得尤为困难。
  为了深入分析TensorFlow和PyTorch在单GPU环境中训练深度神经网络(Deep Neural Network, DNN)模型的性能差异,确定影响性能的关键因素,定义了单GPU环境中训练DNN的性能模型,并以此为基础进行了实验评估。该性能模型以DNN训练的标准流程为基础,考虑了I/O、内存复制、CPU处理、GPU处理以及计算图优化等因素,较为全面地反映了整个训练过程的性能表现。实验使用了涵盖CNN、RNN和Transformer网络结构的7个流行的DNN模型,对这两个框架的训练性能进行了基准测试,并进行了定性和定量的分析比较。
  性能分析表明,在单GPU环境中两个框架的任务调度、数据加载和内存复制等因素对整体性能的影响小于3%,而深度学习模型的关键层的实现对训练速度至关重要。对于大多数模型,计算图优化对训练性能的提升不大于2.5%,对性能的影响很小。研究结果可供深度学习从业人员在框架选择以及性能优化上提供技术参考。
其他文献
血管性血友病因子(von Willebrand factor, VWF)与血小板糖蛋白Ibα(GPIbα)的结合介导血小板粘附和活化。而发生在VWF-A1结构域上的2B型和2M型突变均可导致严重的出血性疾病。这里我们采用了可以模拟生理环境的平行平板流动腔装置分析野生型WT-A1、2B型突变体R1308L、2M型突变体G1324S所介导的血小板运动行为。由于底板静电吸附导致纤维蛋白原(Fibrino
研究背景  胶原蛋白是动物体中最丰富的蛋白质,并且是细胞外基质(ECM)中最普遍的成分之一。目前模仿ECM自然特征的胶原蛋白的水凝胶已被广泛制造以支持干细胞的增殖和分化。然而,关于水凝胶支架中不同来源的胶原蛋白和ECM蛋白的百分比如何调节干细胞特别是间充质干细胞(MSC)的功能的了解还很少。  研究目的  探索水凝胶中ECM组分及其比例对间充质干细胞活性的调控作用  实验方法  1、实验材料:新生
学位
有研究发现糖胺聚糖(GAG)的硫酸化模式在细胞培养中对神经元突起形成和神经元极化起重要作用。其中硫酸软骨素6(chondroitin-6-sulfate,C6S)的硫酸基团位于GAG的6-O位置,通过前期实验我们发现C6S对小脑神经元的轴突生长起抑制性作用。我们认为C6S结合肽有望通过阻断C6S的功能,促进脊髓损伤后的轴突再生及功能恢复。本课题主要通过细胞存活实验、神经元轴突生长实验,组织免疫荧光
当今无线系统要求天线的定向性高、可辐射角度范围宽,以达到电磁波信号传播距离远、覆盖范围广的目的。而波束扫描天线定向性高,并且可以通过改变频率、机械、电子元件、特殊介质等条件来改变波束方向,从而拓宽天线的辐射范围。目前应用最广泛的波束扫描天线是相控阵天线,相控阵天线通过移相器、衰减器等组件来实现波束方向的控制,这使得相控阵天线成本高昂、体积庞大、结构复杂。漏波天线具有随频率变化扫描波束的能力,并且具
随着无线网络的广泛部署和智能移动终端的普及,移动流量日益激增,其中无线视频流量已经占据了主要部分。海量的视频内容以及新兴的服务业务为无线视频传输设计带来了巨大的挑战,包括视频传输效率以及传输质量的信道适应性。在传输效率方面,需要考虑在有限无线资源情况下,如何最小化大容量且高相关性视频的传输失真。在信道适应性方面,需要考虑在时变衰落的无线信道以及异构的多播信道场景下,如何使得视频恢复质量随着信道条件
动态有向图中具有更新依赖关系,即有向边的目的图顶点的状态值依赖于源图顶点的状态值。当沿着动态有向图中更新依赖关系传递的方向依次异步串行地处理图顶点时,图顶点状态值能够在动态有向图中快速传递。然而,现有软件图处理系统和硬件图加速器无法实时感知和利用更新依赖关系的这种特性,因此,现有方法在处理动态有向图增量计算时无法同时实现快速迭代收敛和低预处理开销。  针对现有软件和硬件方法在处理动态有向图增量计算
随着网络功能虚拟化和边缘计算的演变和发展,网络功能被部署在靠近用户的边缘服务器上来减少用户和云之间的数据交换和端到端的延迟。由于边缘服务器集群的资源有限,现有许多研究致力于开发轻量级的基于容器的网络功能虚拟化平台。然而,在基于容器的网络功能虚拟化平台中,多个容器共用同一个核来节省资源。这样会引起虚拟网络功能之间相互竞争资源,从而导致虚拟网络功能所服务的流的性能需求无法得到保证。  基于容器的网络功
学位
核值是一种反映图的聚合度的重要指标,也是图数据分析中紧密子图挖掘的一个热点,它适用于对网络拓扑结构的分析以及社区的查找,还可以用来遏制谣言的传播。静态图上的核值计算以及动态图上的核值更新分别称作核值分解和核值维护问题,这一类问题已经得到了广泛的研究。然而,绝大多数的这些研究都只关注于无权图,但是在现实场景下,大部分的图都是有权的,每个个体在网络中都自带一定权重。然而,目前还没有较为高效的算法能解决
学位
近年来,网络空间安全事件频发,对社会造成了难以估计的影响。在这样的背景下,针对软件系统的漏洞检测研究愈发重要。深度学习因其强大的建模能力和智能化学习能力受到了广泛关注,研究人员纷纷应用深度学习技术进行源代码的表征学习以生成漏洞检测模型。然而,当前漏洞检测领域极度缺乏用于训练模型的真实软件漏洞数据集,目前有效的数据大都用人工的方式生成,效率低且成本高。此外,现有基于深度学习的漏洞检测方法大多是使用线
自2008年比特币问世以来,区块链作为比特币等加密货币的底层技术引起了金融界和学术界等多个领域的广泛关注。区块链本质上是一个提供了一个开放的分布式一致性算法的分布式数据库系统。尽管区块链技术是一种完全去中心化且设计安全的协议,它仍存在可扩展性的瓶颈:低交易吞吐率和高确认延迟,这些因素很大地限制了区块链的实际应用。因此设计一种可扩展的分布式一致性算法非常具有现实意义。  分片技术是提高区块链可扩展性
学位