论文部分内容阅读
随着移动互联网,物联网,社交网络的潮流席卷全球,全球范围内产生的数据量迅猛增长,显然我们已步入大数据时代,同时数据类型已涵盖了文本、图像、视频、语音等绝大部分非结构化数据。如何从大数据中快速获取知识成为了我们当前需要处理主要问题。数据挖掘,是一门融合了统计学、数据库、机器学习、人工智能等多领域的综合性学科。传统的数据挖掘算法大多在单机上串行运行,由于单机内存、计算能力等缘故,将浪费大量的时间执行作业,效率低下且聚类效果也将有所降低,以致无法适应大规模数据的挖掘工作。为了提高数据挖掘对大规模数据的处理能力,提出了分布式计算技术,将数据集划分到多个机器节点上处理,再将处理结果汇总。这样可以利用多个节点的计算能力高效的处理大规模数据。Hadoop是一个分布式计算框架,提供了HDFS, Yarn、 MapReduce核心组件及一些配套的组件,已广泛用于互联网公司的云计算平台中。本文通过研究数据挖掘中的聚类和分类,对Kmeans和Random Forest算法的不足进行了改进,提出了Canopy_Kmeans和Select-attr Random Forest(SRF)算法,本文主要研究内容如下:(一)对数据挖掘的中聚类和分类的基本算法进行了解和分析,特别对Kmeans算法和Random Forest算法进行研究和分析,并介绍了现今对这两个算法的一些改进方案。(二)对Hadoop平台的相关技术进行了研究,详细剖析了Hadoop的HDFS、Yam、 MapReduce技术架构。(三)在Hadoo p平台上实现了Canopy_Kmeans并行算法,解决了Kmeans算法的两个问题:初始簇类中心选择性问题和簇类数目确定性问题。并通过实验证实改进后的算法在集群上有具有较好的聚类效果和运行效率,较高的加速比和扩展性。(四)在Hadoop平台上实现了Select-attr Random Forest(SRF)并行算法,影响Random Forest算法分类效果的三个主要因素是:森林中树的数量,随机属性特征的选择,构建的决策树之间的相关性。针对这些问题提出了SRF算法,使构造的森林具有较强的分类性能,通过实验证实改进的算法具有较好的分类性能,在集群上有较高的加速比和扩展性。