MapReduce模型在Hadoop中的性能优化应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:tom1313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展推动着数据信息呈现着几何式增长,数据占用空间从GB发展到TB甚至PB,飞速增长的数据规模标识着人类进入了大数据时代,大数据给人类带来的冲击不容小觑,用户从爆炸式数据中挖掘出有效信息的效率反而降低,此时,通过对用户数据进行相似度计算能够在一定程度上解决信息超载问题,从而提取出相对热门并有用的数据信息。Hadoop是当前应用最为广泛的云计算开源平台,MapReduce并行编程模型是云计算的关键技术之一。但在实际运用过程中,MapReduce模型计算过程中存在临时数据量大,Reduce任务分配不均会导致系统资源率低等问题。本文针对MapReduce模型的应用,给出了一种利用MapReduce编程模型的分布式计算能力来实现海量数据的相似度计算方法,从I/O操作和负载均衡策略两个方面改进了MapReduce编程模型。通过在Map阶段后使用Stripe算法和SStripe算法完成对中间结果的本地聚集工作,以有效地缓解大量I/O操作引发的磁盘阻塞和网络阻塞;通过在原有负载均衡策略基础上增加基于Balance策略的改进算法,将本地聚集阶段产生的结果均匀分配,以减轻Reduce负载不均带来的网络开销。本文构建了一个基于Hadoop的实验平台,通过一系列对比实验验证了I/O优化算法和改进的负载均衡策略在相似度计算应用中的可行性和有效性。
其他文献
研究群居性昆虫行为特征的科学家发现,昆虫每个个体能力十分有限,在群落一级上的合作基本上是自组织的,在许多场合中尽管这些合作可能很简单,但是却可以解决复杂的问题。群居
移动条件下的特定目标识别已成为计算机视觉领域研究的热点和难点,它在智能视频监控、机器人导航等方面发挥着重要的作用。本文主要对移动条件下特定目标的实时识别进行了研
随着微电子技术,计算机技术,航空技术的迅猛发展,新一代航空电子系统正向开放式,综合式,模块化的方向发展,已迈入综合模块化航空电子系统阶段。作为航电系统的重要部分,软件
网络视频内容审计实时地发现和获取网络中的所有视频流数据包,并在恢复出原始视频文件的基础上,根据既定的安全规则,完成对网络视频内容的审计分析,实现对网络视频信息的监管
随着互联网技术的普及和网络技术的不断发展,网络游戏作为一种娱乐工具正逐步走向人们的生活,网络游戏产业已经日益成为带动社会经济发展的一支重要力量。网络游戏之所以能够吸
生物科学与计算机科学是目前发展最迅速的两大学科,而作为这两大学科的交叉产物—生物信息学在基因组研究中发挥了重要的作用,基因芯片是其中的一个崭新的研究领域。随着基因
存储在云服务器中敏感数据的安全存储和访问控制是云计算安全研究的重要内容。基于属性的加密技术(ABE)用属性集和访问控制策略将用户和数据关联在一起,只有属性满足访问策略
近年来,随着互联网的发展,越来越多的新型应用对传统数据库技术提出了挑战。一个显著的改变就是数据以一个无限的值序列的方式源源不断地产生。数据流(data stream)的处理与
高级在轨系统(AOS)是一个对空-地和空-空的测控与通信数据及其它有效载荷数据进行数据处理和数据管理的系统,帧同步收发器工作在高级在轨系统的物理信道层,是该系统的关键性
在水资源短缺的情况下,水资源的合理配置是充分合理利用水资源的有效措施。区域用水分析与预测能够为区域水资源的合理配置提供数据依据。全面掌握区域用水情况,对于不同时间