论文部分内容阅读
随着互联网技术的兴起和数据库的广泛运用,人们对数据越来越敏感,越来越依赖。而随着大量的互联网的应用的出现,互联网上的数据出现了几何级数的增加,如何对这些数据进行有效的处理,从中提取出有价值的信息,成了学者们重点研究的对象。目前在信息处理方面已经出现了基于数据挖掘的简单分析技术,但是实用的海量数据的信息处理技术还不够成熟。因此,找到一种有效的,合理的处理大规模数据的方法,显得极为重要。目前,海量数据的约简是一个研究热点。本文以基于粗糙集的约简算法即属性约简为基础,属性约简可以有效的删除数据集合中冗余的属性,提取出最重要的属性。主要研究和利用Hadoop分布式文件系统和Map-Reduce并行计算工具,从hash快速约简算法中提取出并行点,设计出了一种基于Map-Reduce的海量数据并行约简算法。本文的主要研究内容如下:1.比较和分析了几种大数据约简算法。分析了两种增量约简算法,属性增量约简算法和对象增量约简算法,并比较其优点和缺点;同时还介绍了两种并行约简算法,利用MPI语言的并行约简算法和一种分布式的并行约简算法,并分别说明了这两种算法的优劣点和适用范围。2.提出了一种海量知识数据的并行约简算法。基于目前对海量数据约简应用的需要,本文在前人的研究基础上,从hash快速约简算法中提取出并行点,利用Hadoop分布式文件系统和Map-Reduce并行计算工具,提出了一种基于Map-Reduce计算模型的海量数据并行约简算法。该算法通过将文件进行分割分配给各个节点,在各个节点的Map过程对属性集合进行hash压缩和求核,然后通过主控进程求出核和不一致集合后,在Reduce过程对余下属性求重要度筛选出其它约简结果,最后合并各节点结果得到最后的约简。3.通过具体的理论分析了算法的加速比和时间复杂度,同时用具体的实验证明了算法的正确性和有效性。通过将标准UCI机器学习库的数据进行复制得到大数据的环境,在Eclipse中编程实现具体的算法,在Cygwin模拟环境中进行实验,实验结果证实了该Map-Reduce并行约简算法可以有效的对海量数据进行处理,为有效处理海量数据提供了一种新思路。