基于Map-Reduce的海量数据约简算法研究

被引量 : 4次 | 上传用户:leinuo2222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的兴起和数据库的广泛运用,人们对数据越来越敏感,越来越依赖。而随着大量的互联网的应用的出现,互联网上的数据出现了几何级数的增加,如何对这些数据进行有效的处理,从中提取出有价值的信息,成了学者们重点研究的对象。目前在信息处理方面已经出现了基于数据挖掘的简单分析技术,但是实用的海量数据的信息处理技术还不够成熟。因此,找到一种有效的,合理的处理大规模数据的方法,显得极为重要。目前,海量数据的约简是一个研究热点。本文以基于粗糙集的约简算法即属性约简为基础,属性约简可以有效的删除数据集合中冗余的属性,提取出最重要的属性。主要研究和利用Hadoop分布式文件系统和Map-Reduce并行计算工具,从hash快速约简算法中提取出并行点,设计出了一种基于Map-Reduce的海量数据并行约简算法。本文的主要研究内容如下:1.比较和分析了几种大数据约简算法。分析了两种增量约简算法,属性增量约简算法和对象增量约简算法,并比较其优点和缺点;同时还介绍了两种并行约简算法,利用MPI语言的并行约简算法和一种分布式的并行约简算法,并分别说明了这两种算法的优劣点和适用范围。2.提出了一种海量知识数据的并行约简算法。基于目前对海量数据约简应用的需要,本文在前人的研究基础上,从hash快速约简算法中提取出并行点,利用Hadoop分布式文件系统和Map-Reduce并行计算工具,提出了一种基于Map-Reduce计算模型的海量数据并行约简算法。该算法通过将文件进行分割分配给各个节点,在各个节点的Map过程对属性集合进行hash压缩和求核,然后通过主控进程求出核和不一致集合后,在Reduce过程对余下属性求重要度筛选出其它约简结果,最后合并各节点结果得到最后的约简。3.通过具体的理论分析了算法的加速比和时间复杂度,同时用具体的实验证明了算法的正确性和有效性。通过将标准UCI机器学习库的数据进行复制得到大数据的环境,在Eclipse中编程实现具体的算法,在Cygwin模拟环境中进行实验,实验结果证实了该Map-Reduce并行约简算法可以有效的对海量数据进行处理,为有效处理海量数据提供了一种新思路。
其他文献
中国是世界上最早使用纸币的国家。《宋史·食货志》载,“钞(纸币)始于唐之飞钱”。可以说“飞钱”是纸币的雏形。北宋时期有“交子”、“钱引”。南宋有“关子”、“会子”,
<正>一年一度的高考又落下惟幕,每年高考后都会涌现出一批题型新颖、立意深远、背景丰富的好题.2015年的浙江省理科第18题以函数问题为载体,结合绝对值考查学生对数形结合、
水是生命的源泉,水资源也可称为自然资源的基础;同时,水是一种战略性的经济资源,也是国家之间衡量综合国力的有机组成。所以,水可以说是发展社会经济的重要基础。新疆的社会经济发
好氧堆肥是使禽畜粪便快速、稳定且无害化的一种有效处理方法,温度、氧含量和C/N值等因素均对堆肥过程中微生物活动的强度造成影响,从而影响堆肥的速度与质量。本文通过研究不
以汶川地震后甘肃地区世行贷款基础设施重建项目为例,介绍了环境外部监测评估的由来、工作内容以及工作意义。并在分析其指标体系构建原因和构建原则的基础上,探讨形成了环境
一在对西方哲学的研究中,我的想法主要经历了以下三个不同的发展阶段:第一阶段是单纯对西方哲学产生兴趣。作为1977级大学生,考入了复旦大学哲学系后,我的主要兴趣集中在西方
海明威不仅是文学大师,而且是语言大师。他的语言朴实无华,准确生动,简约含蓄。以往对海明威的研究多集中与对海明威审美风格的研究和小说语言的研究,但将二者结合起来,研究
中国房地产业发展迅猛,但时间不长。商品房价格变化迅速,处于供需激烈博弈,寻找稳定市场均衡点的动态过程中。如何应对市场变化,适应宏观调控政策对楼市的影响,如何通过科学
个体内差异评价是学生个性化评价的重要手段,是教师因材施教的重要依据。本文从目前体育课中学生学习评价体系缺陷出发,分析了个体内差异评价法对提高学生学习兴趣的优点。
能源已是当今世界瞩目的大问题,太阳能是各种可再生能源中最重要的基本能源,是一种取之不尽的清洁能源,如何更有效地利用太阳能、大规模利用太阳能是世界各国都十分重视的热