Hadoop环境中面向迭代应用的性能优化机制研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:yuryun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多针对大数据集的建模过程中都需要使用迭代算法,比如数据挖掘,网页排序,和社交网络的分析等等。类似这样的迭代应用一般都需要进行海量数据处理。MapReduce作为进行海量数据处理的分布式计算框架之一,因其简单的编程方式,高容错性,易于实现且扩展性强,受到了业界广泛的关注。但是在MapReduce机制下处理迭代应用还存在下几方面的性能缺陷,(1)每次迭代生成具备较多的数据量的新的模型而造成大规模的网络阻塞,(2)计算过程中静态数据重复读取,(3)存在多方面的控制依赖和数据依赖,(4)在一些需要进行阈值检测的迭代应用中MapReducde需要额外的任务来进行阈值检测,(5)在使用传统MapReduce编程接口的情况下,迭代计算不易被表达。针对以上问题,本文将从传统MapReduce机制的运行策略,调度机制和编程模型入手,结合迭代应用的特点,提出了一种针对迭代型数据处理的性能优化机制,从多个角度对传统MapReduce进行改进,来更有效的支持MapReduce机制下的迭代计算,本文的主要研究内容包括以下几个方面:1、通过对当前几种处理大规模数据集系统框架的比较分析,给出了选择MapReduce作为迭代应用的实现平台原因,以典型迭代应用的为例,分析了MapReduce处理迭代计算时的数据流和控制流,找出了相关的性能问题。2、为了减少全局线性运行策略所造成的执行延迟,缓解多对多的数据传输对网络带宽所造成的压力,我们给出了局部线性运行策略,并设计了专门针对缓存的循环调度算法,使得缓存机制能够在迭代应用中最大程度的发挥作用,最后针对线性执行方式提出了相应并行迭代策略,更加有效的提升迭代计算整体的计算速度和执行效率。3、最后我们以本文所提出的机制为平台,选择了典型的迭代算法进行实现,并以相应算法在Hadoop平台上的运行为基准,通过实验验证了本文中所提出的优化机制在减少中间数据量,缓解网络压力,提升迭代计算速度等方面有一定的效果。
其他文献
由于辐射导致的单粒子翻转效应SEU(Single Event Upset),使得航天计算机上的静态存储器SRAM中的数据可能出现小概率错误,这种错误若不及时进行纠正将会影响计算机系统的运行和关
在Internet上信息呈爆炸式增长的背景下,Web资源显示出强大的动态不稳定性,因此产生了主题用户的资源迷向问题.该文以主题搜索引擎和元搜索引擎技术为基础,构建出面向主题Web
随着Internet的迅速发展和个人计算机的普及,人们得到图像、音频或视频等数字作品越来越方便。这极大地扩充了人们获取知识的手段,同时也带来了一些副作用,如作品著作权被侵犯、
该文的工作的主要背景是中国科学院计算机网络信息中心所长基金项目 "多媒体内容管理和检索系统".随着科学数据库的不断发展,其中将包含越来越多的多媒体信息:图像、音频、视
实施过程改进的软件组织要求一种"基于事实"的管理方法,这种管理方法需要软件过程度量提供大量定量或定性的信息,来提高软件过程和软件项目的可视性.然而,由于缺乏明确的指导
期货市场是一个多变的投机型市场,影响期货价格的因素很多很复杂,如气候、国家政策、商品供求状况、经济波动周期、金融货币等,都为期货市场时间序列的准确预测增加了困难.对
当前,智慧城市成为信息时代城市建设的一个基本目标,智能视频安防监控是其中重要一环。视频监控系统已广泛使用于各行各业,监控视频数据已成为一类典型的大数据,传统的视频收
随着计算机网络技术的发展,企业针对自身业务的需要,开发了大量的网络应用,这些应用已逐步成为企业业务的支撑平台.然而,由于缺乏有效的管理措施,应用系统的实际运行情况并不
随着信息系统的普及和网络技术的迅猛发展,越来越多的关键数据被存储在计算机系统中.如果这些关键数据发生丢失或损坏,将会造成巨大的损失,所以提高应用系统的容灾能力一直是
遗传算法是一种概率搜索算法,其基本思想是模拟生物进化过程。由于遗传算法不受搜索空间的限制性假设的约束,不要求解空间有连续性、可导等性质,以及其固有的并行性,目前在许多领