深度学习框架中的GPU高效利用问题研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:congsun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
GPU作为普遍用于深度学习模型训练的硬件平台,在应用时常面临着可用内存不足、核心利用率低等问题。本文以深度学习框架中的GPU高效利用问题作为研究对象,研究了提升GPU核心利用率以及降低GPU内存消耗的方法,并开发了 HelloDeep深度学习框架作为实验平台进行验证。深度学习框架是执行深度神经网络搭建、训练和推理的软件平台。为实现和验证本文提出的GPU高效利用方法,本文提出了一个面向GPU高效利用的深度学习框架HelloDeep。该框架以静态计算图为核心,以异步并行执行引擎保证计算效率,以静态内存池统一管理全局内存,提供用户友好的算子封装和数据处理方法。数据加载经常会成为神经网络训练工作流中的瓶颈,一个较慢的数据加载速度常会使得GPU处于等候数据就绪的闲置状态,降低了 GPU总体利用率。本文提出了一个高效数据IO模块,该模块基于生产者-消费者模型,采用多线程异步加载的方式加快数据处理速度。通过实验证明,该方法可以将神经网络训练过程中GPU的平均利用率从同步加载模式下的25%提高到90%以上。GPU可用内存不足是导致深度学习任务失败的重要原因之一。本文提出了一个GPU内存优化方法,提供3种可选的优化级别,方便用户根据实际情况选用。该GPU内存优化方法采用了变量重计算和内存交换策略来减少静态计算图中特征图的大小。通过在HelloDeep框架上的实验表明,本文提出的GPU内存优化方法相较于基线,实现了最小的特征图内存占用空间大小,并在多数情况下取得了 GPU运行时内存占用的最小值或次小值,验证了本文提出方法的有效性。本文所提出工作的创新之处在于:其一,提出了一个新的、强调GPU高效利用的深度学习框架HelloDeep;其二,考虑了前人工作中较少关注到的Cudnn辅助空间对GPU内存占用的影响,并对Cudnn辅助空间进行限制;其三,考虑了用户对不同级别的GPU内存优化的需求,提出了具有3种可选级别的GPU内存优化方法;最后,在HelloDeep上进行GPU高效利用方法的实现,其实验结果更接近实际环境,说服力更强。
其他文献
目的:脊柱的形态和健康问题已经成为一个严重的问题,正威胁着青少年儿童的健康发展。保持正确的姿势和体态习惯以及合理可取的运动干预可以促进青少年儿童未来的成长,避免脊柱的疾病。本文通过文献资料法、专家访谈法、实验法、数理统计法对栖霞区实验小学两所分校400名左右的三年级学生的脊柱形态进行监测,监测学生胸段和腰段的旋转度数。并对其中一所分校234名学生进行为期16周的运动干预,每周5次,每次30分钟。在
学位
近年来,随着互联网应用范围的逐步扩大,网络渗透到诸如农业、制造业以及交通行业等多个领域,为各个行业插上了信息化的翅膀,为每个领域的飞速发展提供了便利。但是互联网是把双刃剑,它同时也把网络安全问题带入了这些领域,使得各个行业都面临着网络攻击的问题,变幻莫测的网络攻击对各个行业造成巨大的经济损失。因此研究防范网络攻击的入侵检测技术具有重要的应用价值。本文将从深度学习算法和入侵检测系统两个方面开展研究,
学位
汉语是世界上方言最复杂的语言之一,普通话的普及促使我国大量双言者的出现。双言与双语现象相似却又不完全相同。目前的研究大多是探讨双语经验对歧义句加工有何影响,而关于双言经验对歧义句加工影响的研究却很少。海南黎族人是典型的双言使用者,且黎语传统语序中关系从句的位置多与汉语传统语序相反,所以通过考察汉语阅读理解中关系从句挂靠偏向歧义消解加工的眼动过程来探讨黎-普双言者与普通话单言者对第二语言(汉语)的语
学位
在智能电表领域,绝大多数公司选择ARM的Cortex-M系列处理器作为电表芯片的核心控制器件。但是,其作为通用型处理器,没有针对电能计量专用的运算指令,这导致当处理器执行电能计量运算程序时,整体系统能效比并不突出。本文基于开源的RISC-V指令集架构设计了一个专用于电能计量的嵌入式处理器,并构建了一个完整的微控制器(Microcontroller,MCU),主要进行了以下研究和工作:(1)基于RV
学位
随着科技的发展与人类环保意识的增强,电动汽车行业得到了国家的大力发展,与此同时,辅助驾驶技术以及无人驾驶技术也成为各大汽车厂商的研究热点。交警指挥对于交通拥堵问题有着不可替代的作用,而车载系统能否识别交警指挥动作对于无人驾驶技术具有极其重要的意义。在遇到交通拥堵问题时,交警会对现场车辆进行疏导,此时被疏导的车辆如果具有辨别交警指挥动作的功能以此来辅助驾驶员进行指挥动作识别,不但能提高交通疏导速率,
学位
远程直接内存访问(Remote Direct Memory Access,RDMA)是一种网络功能,它允许用户空间应用程序直接读取或写入远程内存,而无需内核干扰或内存复制,因其高带宽和低延迟特性而在在数据中心网络中广泛使用。拥塞控制算法的主要作用是检测网络中的数据传输状况并依此调整发送速率,它是RDMA在高速下实现超低延迟、高带宽和网络稳定性的关键。然而,时下主流的数据中心量化拥塞控制算法(Dat
学位
作为清代“天庾正供”的漕粮本是通过水运将所征粮食运往北京、通州等地来作为国家粮食储备之用,它是清朝财政收入的重要组成部分,清政府为此不惜花费大量的人力、物力及财力来保证漕运制度的正常运行。河南是有漕八省之一,肩负着每年上交二十余万石漕粮的任务,河南并非京杭大运河流经省份导致河南的漕粮缴纳有其自身的特点。本文在近代中国传统非市场经济与西方资本主义市场经济激烈交锋的历史背景下,将宏观和微观分析视角相结
学位
互联网已成为人们日常生活中重要的基础通讯设施,目前,互联网中自治域系统AS(Autonomous System)的数量已达七万多个。分布式的AS之间通过边界网关协议BGP(Border Gateway Protocol)路由互联网中的流量并建立基于各自私有业务协议的商业路由关系。但是BGP协议的设计基于AS之间的信任,缺少对BGP消息的安全验证机制,导致域间网络安全事件频繁发生。准确且实时地识别互
学位
农村基层治理水平的高低反映着国家整体治理水平。为进一步推进农村城镇化,缩小城乡差距,2018年中央一号文件提出了在农村建设新型社区,以改变农村的村容村貌。2022年中央一号文件进一步指出,要扎实稳妥推进乡村建设,突出实效改进乡村治理。在乡村振兴战略背景下,推动新型农村社区治理改革,提高居民对社区治理水平的满意度,提升农村社会治理水平,直接影响着农村居民生活的幸福感与获得感,与农村全面深化改革目标的
学位
闪存因其高密度、大容量、工艺成熟被广泛应用于移动存储设备、固态存储设备。但闪存本身存在许多缺陷,如:寿命有限、物理块擦除次数有限、读干扰等,需要FTL(Flash Translation Layer)来进行闪存缺点的屏蔽,用户才能更加方便、长久的使用闪存。FTL基本功能有地址映射、垃圾回收等。介质经过长时间使用,FTL会开启垃圾回收清除无效数据,释放可用空间,保证写入,但当介质到达生命末期,其中的
学位