面向大数据处理的应用性能优化方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:mythdream1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据是随着信息科技的高速发展而产生的独特数据现象,其影响已经深入到人们生活的方方面面。为了获取大数据中蕴含的宝贵价值,需要采用合适的处理方式对海量数据进行处理。其中,MapReduce应用和神经网络应用是目前利用海量数据进行价值发现的代表性手段。对于MapReduce应用,Hadoop是目前最成熟的大数据处理框架,其为MapReduce应用提供了运行环境,并提供了丰富的配置参数对应用的运行进行控制。然而,在缺乏专业知识的情况下,用户难以对这些配置参数进行调优。同时,对于MapReduce应用和神经网络应用,传统体系架构中处理单元与存储单元之间频繁的数据移动限制了系统的性能和能效表现。为有效提升基于MapReduce和神经网络的大数据应用的处理性能,本文从软件框架、系统架构,以及专用加速结构等角度出发,研究大数据应用性能优化的关键核心技术。本文的主要工作和研究成果包括:1)基于性能建模的Hadoop配置参数调优方法。Hadoop中,默认配置下MapReduce应用的性能往往无法达到最优。同时,巨大的配置参数空间也使暴力搜索难有成效。为此,本文首先基于对MapReduce运行流程的分析,采用集成学习的方法构建双层模型对应用程序的性能与Hadoop配置参数之间的关系进行建模。然后,基于性能模型采用元启发式方法对配置参数优化空间进行探索,以寻找最优的配置参数组合。实验结果表明,本文的性能模型可以准确地预测MapReduce应用的运行时间,平均错误率为5.7%;相比于Hadoop默认配置以及现有研究,优化后的配置参数可以使MapReduce应用分别获得平均9.6倍和1.5倍的性能提升。2)基于动态任务迁移的近数据处理方法。为了应对大数据应用中频繁数据移动对系统性能和能耗造成的负面影响,本文基于三维(3D)存储器集成存储与逻辑电路的特点和MapReduce模型的并发特性,提出一种基于动态任务迁移的近数据处理方法。本文对MapReduce应用的工作流解耦以获取核心计算任务,提供迁移机制将计算任务动态迁移到近数据处理单元中运行。实验结果表明,对于MapReduce应用,提出的近数据处理方法将75%的数据移动约束在存储单元内部,有效减少了主处理单元与存储单元之间的数据移动。与现有工作相比,本文提出的近数据处理方法提升了 70%的性能和44%的能效。3)基于忆阻器的卷积神经网络加速方法。本文基于忆阻器同时具有存储和计算能力的特性提出适用于卷积神经网络的存算一体处理方法。基于忆阻器构建存算一体加速模块,设计专用的模块对卷积神经网络计算所需的操作进行支持。重点针对卷积操作,从提升加速模块空间和时间利用率的角度提出混合映射方法。空间上,利用卷积核并行、输入数据复用、输入通道累加等方式提高映射并行度;时间上,根据卷积层的计算量情况,权重被重映射到空闲的加速阵列中,以进行流水线平衡。实验结果表明,对于典型卷积神经网络VGG-16,相比基本模式,提出的混合映射将加速模块的性能提高了 25.1倍;相比现有工作,加速模块的能效提高了 25%。本文对面向大数据处理的应用性能优化方法进行了探索,所提出的设计与优化方法,可以为面向大数据处理的应用性能优化提供参考和解决方案。
其他文献
极低频电磁波在潜艇通信、海底探测、地质勘探和地震电磁监测等诸多领域中有着重要的应用,这促使人们对其传播机制的理解不断深入。然而,在这方面的研究资料较少,尤其是极低
<正>习主席担任军委主席以来,强调最多、忧思最切、拷问最严的就是军队能否打仗、能否打胜仗。今年两会期间,习主席又在解放军代表团全体会议上强调,要大力纠治"和平病",坚持
目的:探讨经尿道前列腺等离子电切术后出血的原因及处理措施。方法:选择经尿道等离子电切术后出血病例34例,分析出血原因,了解出血后治疗效果。结果:早期出血23例,迟发性出血11
随着我国经济的快速发展,港口工程建设也得到了快速发展。在港口工程建设施工时,一般会采用疏浚吹填技术来进行施工,文章以实际工程为例,首先对港航施工项目港口工程的实际情
利妥昔单抗(Rituxlmab),商品名:美罗华;(Mabthera)(美国罗氏基因泰克公司生产),是一人鼠嵌合性单克隆抗体,能特异性地与跨膜抗原CD20结合,通过抗体依赖的细胞介导细胞毒作用及补体介导的
目的:探讨胸椎结核的影像学特征。方法:总结胸椎结核的影像学表现,探讨其比较影像学特征。结果:回顾性分析111例胸椎结核的影像学表现均有不同程度的骨质破坏。其中:中心型12例,占1
目的:研究酪氨酸激酶RON(recepteur d'origine nantais)在胰腺癌组织中的表达及其意义.方法:收集胰腺癌组织及相关癌旁组织31例,正常胰腺组织8例,采用免疫组织化学技术检测组织中RON
目的:通过介绍在麻疹强化免疫中实施的护理措施,分析与探讨提高护理服务质量的方法与途径.方法:麻疹强化免疫工作开始前加强工作人员的业务培训,免疫接种后运用护理责任小组法
目的:观察MTA1,PTEN,E-cadherin蛋白在胃癌和正常胃黏膜组织中的表达,探讨其与胃癌浸润、转移和生物学行为的关系.方法:应用免疫组织化学方法检测54例胃癌手术切除标本和15例正
改革开放以来,中国经济持续快速增长,但与此同时,日益扩大的收入分配差距已经成为影响我国社会稳定和制约国民经济持续健康发展的重要问题,其中城乡居民收入差距的问题尤为突