基于异构计算的CNN并行框架的设计与实现

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:liubo200987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习和异构计算的不断发展,在多个领域中基于异构计算的深度学习已经取得了突破性的成绩,如图像识别和语音识别。截止目前,最智能的机器学习方法就是深度学习,而CNN是深度学习里最重要的一个模型,其研究意义和商业价值巨大。同时由于GPU的强大计算能力被挖掘出来,现如今广泛采用GPU来进行CNN的训练。但是由于存在CNN的训练时间长和单张GPU卡甚至单台GPU服务器(含多张GPU卡)的显存都无法装载单个模型副本的问题,因此需要采用多台GPU服务器的集群来并行训练CNN。在GPU集群并行训练的方法中,如何在硬件设施确定的情况下,确定模型切分方案和数据并行个数将是本文的研究重点。本文首先对现有的CNN并行方法进行调研,然后提出了最优化的模型并行和数据并行方案。以该方案为基础设计了一个基于异构计算的CNN并行框架,该框架总体上采用Master/Slave架构,其中Master是调度器,主要工作是计算出最优化方案以及调度计算任务。Slave分为W-slave和P-slave。W-salve是执行真正的CNN训练任务的载体,P-slave是负责参数更新工作的参数服务器。最后详细介绍了最优化模型并行和数据并行方案的实现。本文的主要工作为以下几点:1.通过对当前深度学习的并行方案进行调研,在硬件设施确定的情况下,针对模型切分和数据并行的个数提出了自己的最优化模型并行和数据并行方案。2.对基于异构计算的CNN并行框架进行架构设计。框架整体采用Master/Slave架构,参数更新采用异步更新方式。3.设计并实现本文提出的在硬件环境确定的情况下,计算确定单个模型副本切分的子模型个数和模型副本个数的最优化方案。最后对最优化方案进行仿真测试。仿真测试分为单张GPU卡能装载单个模型副本和单张GPU卡不能装载单个模型副本两种情况。仿真结果表明本文提出的最优化方案能够在硬件环境确定的情况下,计算出最优的模型副本切分的子模型个数和模型副本个数,找到最大的训练预估时间加速比,从而可以在实际训练时利用该种并行方案来缩短训练时间。
其他文献
随着互联网技术在人们生活中占据越来越重要的作用,网络安全问题也日益严重,为保障系统安全性,网络安全评估已成为信息安全领域的研究热点。在众多网络安全评估技术中,渗透测
本文介绍了PKI与CA认证中心的概念、原理、组成及提供的核心服务,详细说明了入侵容忍技术的概念、应用领域及分类。以XTR公钥密码体制为基础,利用shamir(t,n)门限秘密共享方
目前,万林克公司设计的CE1从板设备已经进入比较成熟的阶段,客户提出将处理器集成到从板的需求日益明显,因此,以MPC8321为CPU的四路CE1接口板卡设计至关重要。本文首先对CE1
近年来,由于计算机技术的迅猛发展,教育的教育教学模式和考试模式都产生了质的飞跃。特别是在现代教育的教育教学模式逐步完善的今天,对于考试模式的改革提出了新的要求,编程
无线传感器网络(Wireless Sensor Networks,WSNs)是随着微电子技术、无线通信技术和计算技术等技术的进步而发展起来的新技术,是当前国际上研究的热点领域,有着广泛的应用前
本文开头部分介绍了数字水印的一些相关概念、原理与技术、图像预处理方面的知识等;接着以JPEG图像压缩编码、人眼视觉特性为基础,对基于DCT域的一些图像水印算法进行研究;然
随着信息管理技术的发展,互联网技术与数据库技术的结合为计算机的在人类生活中的应用带来了巨大的影响。在世界范围内,教育都是影响着国富民强的重要行业。在我国,随着高等
学位
JXTA是SUN公司推广P2P技术的主流平台,已经在P2P应用的大多数领域诸如即时通信、数据存储、文件共享、协同计算、搜索引擎等方面得到广泛的应用,但是目前针对P2P视频会议系统
随着互联网+在各应用领域的迅猛发展,图结构数据呈指数级的趋势增长。图匹配作为图结构数据的基础算法,在数据挖掘、识别和检索等方面均发挥着关键作用。因此,构建复杂度较低