Hadoop环境中面向迭代应用的性能优化机制研究

来源 :云南大学 | 被引量 : 0次 | 上传用户：yuryun

【摘要】

：

许多针对大数据集的建模过程中都需要使用迭代算法,比如数据挖掘,网页排序,和社交网络的分析等等。类似这样的迭代应用一般都需要进行海量数据处理。MapReduce作为进行海量数

【作者】

：

季文海

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2014年期

【关键词】

：

迭代应用 Hadoop 性能优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

许多针对大数据集的建模过程中都需要使用迭代算法,比如数据挖掘,网页排序,和社交网络的分析等等。类似这样的迭代应用一般都需要进行海量数据处理。MapReduce作为进行海量数据处理的分布式计算框架之一,因其简单的编程方式,高容错性,易于实现且扩展性强,受到了业界广泛的关注。但是在MapReduce机制下处理迭代应用还存在下几方面的性能缺陷,(1)每次迭代生成具备较多的数据量的新的模型而造成大规模的网络阻塞,(2)计算过程中静态数据重复读取,(3)存在多方面的控制依赖和数据依赖,(4)在一些需要进行阈值检测的迭代应用中MapReducde需要额外的任务来进行阈值检测,(5)在使用传统MapReduce编程接口的情况下,迭代计算不易被表达。针对以上问题,本文将从传统MapReduce机制的运行策略,调度机制和编程模型入手,结合迭代应用的特点,提出了一种针对迭代型数据处理的性能优化机制,从多个角度对传统MapReduce进行改进,来更有效的支持MapReduce机制下的迭代计算,本文的主要研究内容包括以下几个方面：1、通过对当前几种处理大规模数据集系统框架的比较分析,给出了选择MapReduce作为迭代应用的实现平台原因,以典型迭代应用的为例,分析了MapReduce处理迭代计算时的数据流和控制流,找出了相关的性能问题。2、为了减少全局线性运行策略所造成的执行延迟,缓解多对多的数据传输对网络带宽所造成的压力,我们给出了局部线性运行策略,并设计了专门针对缓存的循环调度算法,使得缓存机制能够在迭代应用中最大程度的发挥作用,最后针对线性执行方式提出了相应并行迭代策略,更加有效的提升迭代计算整体的计算速度和执行效率。3、最后我们以本文所提出的机制为平台,选择了典型的迭代算法进行实现,并以相应算法在Hadoop平台上的运行为基准,通过实验验证了本文中所提出的优化机制在减少中间数据量,缓解网络压力,提升迭代计算速度等方面有一定的效果。

其他文献

基于386EX CPU的实时EDAC设计

由于辐射导致的单粒子翻转效应SEU（Single Event Upset），使得航天计算机上的静态存储器SRAM中的数据可能出现小概率错误，这种错误若不及时进行纠正将会影响计算机系统的运行和关

学位

单粒子效应存储器纠错编码航天计算机FPGA

面向主题的Web信息博物馆的研究

在Internet上信息呈爆炸式增长的背景下,Web资源显示出强大的动态不稳定性,因此产生了主题用户的资源迷向问题.该文以主题搜索引擎和元搜索引擎技术为基础,构建出面向主题Web

学位

Web信息主题博物馆主题搜索引擎元数据敦煌学

数字水印技术研究及其应用

随着Internet的迅速发展和个人计算机的普及，人们得到图像、音频或视频等数字作品越来越方便。这极大地扩充了人们获取知识的手段，同时也带来了一些副作用，如作品著作权被侵犯、

学位

数字水印信息隐藏密码术隐写术通信模型图像分割协议攻击数字水印技术

科学数据库多媒体元数据标准研究与应用

该文的工作的主要背景是中国科学院计算机网络信息中心所长基金项目 "多媒体内容管理和检索系统".随着科学数据库的不断发展,其中将包含越来越多的多媒体信息:图像、音频、视

学位

多媒体元数据元数据标准内容检索元数据标准框架

软件开发过程中实用软件度量的研究与支持环境的实现

实施过程改进的软件组织要求一种"基于事实"的管理方法,这种管理方法需要软件过程度量提供大量定量或定性的信息,来提高软件过程和软件项目的可视性.然而,由于缺乏明确的指导

学位

实用软件度量软件过程软件过程度量统计过程控制过程改进

基于范例推理的时序预测模型理论及其应用

期货市场是一个多变的投机型市场,影响期货价格的因素很多很复杂,如气候、国家政策、商品供求状况、经济波动周期、金融货币等,都为期货市场时间序列的准确预测增加了困难.对

学位

范例推理范例推理范例表示范例表示相似性度量相似性度量时间序列预测时间序列预测结构相似性结构相似性

基于Hadoop的离线视频数据处理技术研究与应用

当前,智慧城市成为信息时代城市建设的一个基本目标,智能视频安防监控是其中重要一环。视频监控系统已广泛使用于各行各业,监控视频数据已成为一类典型的大数据,传统的视频收

学位

大数据处理视频离线处理Hadoop MapReduce数据重分布

应用性能管理（APM）的研究与实现

随着计算机网络技术的发展,企业针对自身业务的需要,开发了大量的网络应用,这些应用已逐步成为企业业务的支撑平台.然而,由于缺乏有效的管理措施,应用系统的实际运行情况并不

学位

应用性能管理WBEMCIMARM

大规模分布式系统容灾技术研究

随着信息系统的普及和网络技术的迅猛发展,越来越多的关键数据被存储在计算机系统中.如果这些关键数据发生丢失或损坏,将会造成巨大的损失,所以提高应用系统的容灾能力一直是

学位

容灾灾难恢复数据流复制远程容灾系统

遗传算法的若干改进及应用

遗传算法是一种概率搜索算法，其基本思想是模拟生物进化过程。由于遗传算法不受搜索空间的限制性假设的约束，不要求解空间有连续性、可导等性质，以及其固有的并行性，目前在许多领

学位

遗传算法交叉变异收敛TSP

Hadoop环境中面向迭代应用的性能优化机制研究

与本文相关的学术论文