基于内存的MapReduce系统效率优化机制研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shidai19860115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代下数据的处理与分析已成为一个十分重要的环节。为了满足数据处理高时效的需求,基于内存计算的大数据处理系统成为了新的研究热点。现有高性能计算集群由于内存配置相对CPU配置明显不足,当运行在上面的MapReduce系统用来处理数据密集性应用,容易导致不必要的数据溢出到磁盘的I/O操作,内存效率急需优化。当处理大规模的数据集时,分区数量过多,基于哈希的Shuffle机制会导致过多的文件操作和内存的不合理使用。但当分区块过大,任务消耗的内存量变大,容易导致CPU与内存出现协调不一致的性能瓶颈问题。同时每个工作节点处理的中间数据量分配不合理,容易导致负载不均衡,影响系统性能。适用于大数据处理的内存效率优化系统针对MapReduce系统在高性能计算集群中出现的问题,结合内存计算的特性,提出并实现了内存资源高效使用的优化方案,用于构建快速、高效的大数据处理平台。首先,优化系统设计了一种对象复用的Shuffle机制,通过复用文件写句柄及其附属对象有效解决了分区数量过多时内存申请速度过快的问题,确保内存的平稳使用;其次,优化系统建立了一种基于反馈-采样-决策的任务分发机制,有效协调了分区块过大时CPU与内存的使用关系,极大地减少了中间数据溢出到磁盘的I/O开销;最后,优化系统实现了一种内嵌负载均衡器的任务调度机制,确保每个工作节点处理的中间数据量几乎一致,并且最大化地减少网络传输数据量。优化系统提出的内存效率优化方案集成在Spark系统上,实现了对用户的透明,可以完全兼容已有的Spark应用程序。通过典型案例测试,实验结果表明,改进后的Spark系统相比原生系统,在处理大规模数据集时,内存使用效率得到提高,磁盘I/O大量减少,在总的执行时间上有着1.25倍到3.18倍的性能提升。
其他文献
电力变压器是电力系统中的枢纽设备,它的性能直接影响到电力系统运行的安全和可靠,及时准确掌握变压器的运行状态、及早发现变压器的潜伏性故障,对变压器状态检修具有重要的现实意义。随着我国电力工业的迅速发展,变压器数量激增,测试数据越来越庞大,对变压器进行故障诊断也越来越复杂。对变压器油中溶解气体成份含量进行分析可以诊断变压器的故障。电力变压器数据信息具有不完备、不确定性的缺点,而贝叶斯网络有知识表达灵活
2008年受经济危机的影响,我国钢铁行业受到了巨大的冲击,严重影响了钢铁下游行业——机械工业、汽车制造业、建筑业、交通运输业等这些影响我国经济命脉的重工业。2009年在国
学位
资源(能量、计算、存储以及通信能力)受限是无线传感器网络(Wireless Sensor Networks, WSN)相比于传统的flat ad hoc式的无线网络所具有的重要特征,为无线传感器网络设计高
学位
随着互联网技术的高速发展,WEB应用程序凭借其部署方便、价格低廉以及灵活的信息发布和信息交流成为了应用与研究的热点之一。但是传统的B/SWEB应用是基于HTML页面的模式,相比C
学位
探寻河南电信CDMA信息化应用的发展方向,从烟草行业信息化现状调查入手,全面分析烟草行业移动信息化需求,围绕客户“进销存”和“三员管理”的核心价值诉求点,通过大量客户走访与
集成了传感器、片上系统和网络三大技术而形成的传感器网络是一种全新的信息获取和处理技术、它能够通过各类集成化的微型传感器协作地实时感知、处理信息,从而为人们提供大
随着视频监视向着智能化方向发展的不断深入,人们期盼着智能监控系统能够为我们的生活带来便利,甚至代替人类完成某项工作。社会对公共安全的关注度不断提高,监控区域也在不