基于Map--Reduce的多表连接框架的研究与实现

来源 :东北大学 | 被引量 : 2次 | 上传用户:jaslxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,随着数据信息量的激增,大数据概念兴起。大数据的处理分析受到了国内外各个研究领域的广泛关注。由于谷歌的成功案例,使得MapReduce框架成为了目前研究和使用最广泛的大数据处理框架,其中Hadoop MapReduce作为谷歌MapReduce框架的开源社区版,成为了最热门的开源项目之一。MapReduce框架采用将大数据集分片并行处理的思想,并向用户屏蔽了并行程序的编程细节,以及程序并行处理时的协调机制和容错问题。作为信息分析处理的基本操作,连接操作一直是MapReduce框架下的研究热点,但由于MapReduce框架对连接操作的支持度不高,所以在连接操作中存在着很多问题。本文针对MapReduce框架下连接操作中产生的大量中间冗余数据和多表连接过程中多任务间协调问题,提出了Share-Coordinate-MapReduce框架。首先,本文通过分析多表连接中冗余数据产生的原因,提出了基于Bloom Filter共享信息框架Share-MapReduce,该框架通过顺次处理连接数据集,共享连接属性,从而实现对中间冗余的元组进行过滤,减少网络数据传输,降低I/0代价;对于多表连接过程中多任务协调问题,提出了Coordinate-MapReduce框架,该框架通过协调多个任务的启动,减少任务间的等待时间;并基于数据连接属性的分布比例,提出改进框架下多表连接的连接顺序优化机制,从而最大程度上发挥框架性能。其次,对于改进框架下总节点的任务增加问题,为了降低改进后单点失效的机率,提出基于虚拟化技术的部署策略,通过虚拟化管理框架对总节点的运行环境情况进行动态监控,并通过轮询策略对将要出现的问题进行提前处理。同时,为了确保改进后框架的性能,本文对改进框架进行了可靠性和扩展性的分析,并且针对提出的连接策略进行适用性分析,以方便用户更好的使用框架。最后,本文通过手动生成网络日志文件数据集,对框架的性能进行了测试,通过实验可以看出本文提出的改进框架对属性值稀疏大表的处理上具有很大的优势;通过对虚拟化管理框架的测试可以看出,该策略可以为总节点提供一个良好的运行环境。
其他文献
长时间持续运行的软件存在软件老化现象,软件老化严重威胁着软件及计算机系统的可靠性,并成为制约软件可靠性发展的主要瓶颈,因此软件老化问题已成为当前学术界关注的重点之
普遍网络化孕育的无线传感器网络(Wireless Sensor Network, WSN)是一种新的信息获取和处理技术,其广泛的应用前景引起了国内外众多研究人员的关注。但是受到制造成本、体积
在现代社会中,综合信息处理系统在现实生活中很多方面都有很重要的应用.其中GOS(Geographical Information System)系统就是一个综合信息系统环境,地理信息系统是以地理空间
本文在通用安全模型的基础上,提出并实现了安全信息服务模型,该模型综合了身份认证、授权和访问控制、审计等安全技术,实现了根据用户的需求安全可靠的获取特定信息,在满足安
随着计算机图形学应用技术的发展,网格建模是计算机图形学和CAD一直研究的一个课题。目前工业界广泛使用的网格细分操作要求表达图形体的网格能够在三维空间中表达一个有效并
该论文在数字光接收机原理基础上设计了一个能嵌入在喷墨绘图机中的光接收模块,该模块将通过光纤传输过来的光信号转换为电信号,并从电信号中将数据信号正确地恢复出来.论文
中国已经建成了世界上规模最大的GSM移动智能网,如何对其进行有效的管理和操作维护,关系到巨大的社会效益和经济效益.该文通过对电信网络管理技术的分析,结合移动智能网的自
该文提出一种基于链接分析的领域文本概念间关系的获取方法.该方法利用链接文法对领域语句分析结果中的链接信息作为概念间联系的视角,能提供比单纯的概念对或词汇同现更丰富
该文是在东软股份社会保险事业部的通用交易平台的方向上进行的研究.对现行系统运行中存在的问题(比如短时间内大量用户的同时访问和网络的暂时故障)给予了很好的解决.系统中
随着SOA(Service-Oriented Architecture,面向服务架构)技术的发展,越来越多的企业在系统应用中采用了这项新兴的架构来满足企业业务的需求。XML(Extensible Markup Language