TensorFlow平台深度学习任务的资源调度问题研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:yuyuebing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从AlphaGo与人类对弈以来,人工智能得到了极大的发展。从语音识别领域的语音助手,计算机视觉应用中的人脸识别,自然语言处理的机器翻译等多方面给我们带来便利,这依靠的是深度学习技术。深度学习的过程需要进行神经网络的构建和训练数据特征的提取,借鉴人脑结构特点通过将大规模的数据在多层神经网络上不断的训练,从多层的训练中不断得到抽象程度更高的数据特征,便于复杂问题的解决,带给深度学习巨大的发展空间。各大计算机巨头也纷纷开源其深度学习框架例如Caffe、Torch、MXNet。其中Google的Tensor Flow因其高可用,工作流程简单,社区支持活跃而优势很大。深度学习投入应用仅仅依靠TensorFlow来进行模型训练是不够的,应用过程要考虑到数据的存储与处理、资源的管理和调度、应用的部署等方面。同时深度学习训练过程资源消耗大,更需要合理的调度。为此,需要借助云计算相关技术搭建云深度学习平台,通过虚拟化技术实现资源的统一管理,通过集成各种框架保证深度学习应用的正常运行。为了提升深度学习任务训练过程的资源利用率,本文从以下两个方面展开,进行了分析和论证:(1)改进粒子群算法应用到云深度学习平台下的虚拟机与物理机的映射问题。作为一种启发式算法,粒子群算法适合于解决组合优化类问题。通过从粒子群多样性,参数设置等方面对其加以该进,使算法的收敛速度和求解精度得到提高。而后针对TensorFlow深度学习任务的资源需求,特别是GPU的需求,构建以提高资源利用率为目的的资源调度模型,通过将改进后的粒子群算法应用到设计的模型中,用于解决云深度学习平台资源调度中的虚拟机放置问题。(2)提出GPU服务器进行深度学习训练时基于GPU设备运行状况的资源调度策略。目前在GPU服务器上进行TensorFlow深度学习训练,主资源GPU的使用依赖人工的、静态的进行资源指配,在多任务多GPU情况下会造成某些GPU的闲置。为此通过进行基准测试,结合TensorFlow使用GPU的方式和对GPU设备运行数据的采集分析,提出了应用于TensorFlow深度学习任务的GPU资源调度策略,提高GPU的利用率,缩短一系列任务总的完成时间。在CloudSim仿真平台上验证了应用于虚拟机放置的调度算法,资源利用率有了很大的提升;调度策略应用于GPU服务器上的任务训练时缩短了一系列任务总的完成时间,提高了GPU设备利用率。
其他文献
Web服务的出现是Internet技术发展的一次革命,Web服务技术作为一种新型的面向服务的分布式计算模式,可以方便地实现Internet上跨平台、语言独立、松散耦合的异构应用的交互和集
随着中国汽车市场的高速增长,使得一系列产业得到了迅猛的发展。其中最直接的就是汽车营销业。汽车销售企业掌握的资源总是有限的,要想在竞争中快速制胜,只有充分发挥各种竞争的
搜索引擎是网络信息检索的主要工具,它的出现方便了人们对信息的查询,但现有搜索引擎返回的结果太多,用户很难查找到真正想要的资料。此外,人们通常无法用简单的几个词来描述
随着数字可视化和网络技术的不断发展,医学图像信息在现代医学中的临床诊断、教学科研等方面的作用日益突现,相关技术和系统的研究已经成为当前数字图像研究领域中的一个热点
随着计算机图形学和网络技术的发展,大量视频动画被制作并在互联网上传播。关键帧是一段视频中包含重要视频内容的一组离散的帧序列。基于关键帧的视频摘要技术被广泛应用于
Web结构挖掘是从WWW的组织结构、Web文档结构和链接关系中推导知识的过程。目前基于网络的组织结构和链接关系进行挖掘的算法主要有两种,其中有代表性的算法主要是Larry Page
机器人是一项包含多项技术领域的综合性研究项目,自主移动机器人是机器人学科中技术含量比较高的一个分支,具有广泛的应用前景。视觉系统作为机器感知外界环境的重要手段,对
智能规划是人工智能的一个重要研究领域,智能规划的主要思想是根据预定实现的目标,对若干可供选择动作及所提供的资源限制进行推理,得到实现目标的动作序列。近几年来,为了表示规
路径规划是自主机器人导航的一个重要问题。信息融合技术作为一门新兴的实践应用技术,为各领域的信息处理以及决策支持提供了可靠的手段,也是实现机器人智能化的关键技术之一
在靶场正式将新研制雷达投入到重要的大型试验任务之前,必须对新研制的雷达设备动态跟踪数据的测量误差范围、测量数据的精度进行鉴定,以评定雷达的测量误差、测量数据的精度