MapReduce模型的性能优化研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:sanshao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、云计算以及物联网的快速发展,电子商务、电子政务、社交网络等新应用为人们的日常生活和工作带来极大方便,同时也使数据产生的方式越来越多样化,数据量呈爆炸式增长。在大数据的时代,MapReduce以其高效率、易扩展、简易性等一系列特性,成为现阶段海量数据处理的主流模型。但是,MapReduce现有的数据分配机制易导致输入数据倾斜的问题,造成少数的几个点上分配了大部分的数据,最终导致各节点的负载不同;在现实生活中需要被处理的海量数据大部分都是呈偏态分布得,即Zipf分布,这样就会导致一些数据对应的记录数不均等。同时,易导致分区一样的数据汇聚到性能低的节点上,造成各节点作业执行时间不同的现象。对于密集型数据任务,在拉取数据时会造成大量的磁盘访问以及竞争有限的网络宽带资源等瓶颈。MapReduce性能优化的关键问题之一是数据倾斜。为了优化MapReduce数据倾斜的问题,在本文中提出了MapReduce在线抽样分区的负载均衡优化机制。该机制在任务开始之前,首先对源数据进行抽样分析操作,来预测源数据分布的特征;根据数据分布特征,动态地调用不同的数据分区优化策略;在任务执行过程中,实时监测每个节点的负载,同时动态优化对应的数据分区策略。为提升异构环境下的MapReduce性能,本文提出一种异构环境下基于节点作业时间感知的动态MapReduce调度策略:DTHE(Dynamic MapReduce scheduling based on the Time-aware of node jobs in Heterogeneous Environments)。DTHE在作业执行前,首先标记部分任务作为节点样本任务并优先处理,在执行其他任务时分析样本任务,预测节点性能和数据分布特征,动态采取相应的调度策略;在作业运行中实时监测节点任务状态,提前拉取节点下一个任务数据到本地内存。实验结果表明:在异构环境下,DTEH能够缩短5.1%的作业执行时间并减少磁盘I/O,有效提升MapReduce性能。
其他文献
随着信息化的不断推进,计算机在我们的日常工作和生活中越来越重要,信息安全受到广泛关注,计算机操作系统的安全问题也日益引起人们的高度重视。实施多级安全策略模型是增强
随着我国经济社会的发展,深基坑工程施工越来越多,然而这些工程本身均存在安全风险而且会对其周边环境产生很大的影响。传统的手工基坑监测数据管理办法仍然停留在数据的存储和
随着计算机科学技术的快速发展,特别是数据库技术的广泛应用,数据挖掘领域成为热门的研究之一。浩瀚的数据海洋隐藏着大量对人们有重要价值的信息,如果能够通过有效的数据分析,提
随着社会的发展和科技的进步,社会计算、基因工程等领域的信息和数据呈指数级增长。为了从海量数据中获取有效的知识或规律,数据挖掘应运而生。作为-种重要的数据挖掘技术,关
随着移动设备的使用日益普遍和因特网的应用已经逐渐覆盖了人们生活的各个方面,人们就产生了依靠简单的移动设备向网络用户提供服务的需求。而在嵌入式技术的发展中,出现了一
在数字信息化浪潮的推动下,非线性编辑方式已经取代了传统技术,成为在电视台节目制作的首选方式。在此方式下,节目制作的素材、产品等大都以计算机文件的形式保存,大量的文件必然
由于计算机的快速发展,新一代计算机资源充足,主流CPU的速度越来越快,性能开始出现严重的过剩状态,应用软件可以在极短的时间内处理完毕,然后大量的系统资源将处于闲置浪费状
我国是农业大国,提高农产品产后处理水平是增加农业产值的主要方法之一目前市场上脱水蒜片的分选主要靠人工感官进行,其分选精度不易保证,分选结果一致性差。进行农产品自动
Java Card是一种可运行Java小应用程序的智能卡,随着全球EMV迁移及国内金卡工程的大力推动,Java Card在金融领域的应用越来越广泛,下一代银行卡全面迁移到Java Card已是箭在
随着我国电力工程的快速发展,电力工程中的招投标活动影响电力行业的发展,电力物资的评标是招投标环节的核心内容。现有的评标方案中,对于小宗物资的评标比较完善,但涉及到大