基于Hadoop的数据挖掘算法并行化研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:remine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网,物联网,社交网络的潮流席卷全球,全球范围内产生的数据量迅猛增长,显然我们已步入大数据时代,同时数据类型已涵盖了文本、图像、视频、语音等绝大部分非结构化数据。如何从大数据中快速获取知识成为了我们当前需要处理主要问题。数据挖掘,是一门融合了统计学、数据库、机器学习、人工智能等多领域的综合性学科。传统的数据挖掘算法大多在单机上串行运行,由于单机内存、计算能力等缘故,将浪费大量的时间执行作业,效率低下且聚类效果也将有所降低,以致无法适应大规模数据的挖掘工作。为了提高数据挖掘对大规模数据的处理能力,提出了分布式计算技术,将数据集划分到多个机器节点上处理,再将处理结果汇总。这样可以利用多个节点的计算能力高效的处理大规模数据。Hadoop是一个分布式计算框架,提供了HDFS, Yarn、 MapReduce核心组件及一些配套的组件,已广泛用于互联网公司的云计算平台中。本文通过研究数据挖掘中的聚类和分类,对Kmeans和Random Forest算法的不足进行了改进,提出了Canopy_Kmeans和Select-attr Random Forest(SRF)算法,本文主要研究内容如下:(一)对数据挖掘的中聚类和分类的基本算法进行了解和分析,特别对Kmeans算法和Random Forest算法进行研究和分析,并介绍了现今对这两个算法的一些改进方案。(二)对Hadoop平台的相关技术进行了研究,详细剖析了Hadoop的HDFS、Yam、 MapReduce技术架构。(三)在Hadoo p平台上实现了Canopy_Kmeans并行算法,解决了Kmeans算法的两个问题:初始簇类中心选择性问题和簇类数目确定性问题。并通过实验证实改进后的算法在集群上有具有较好的聚类效果和运行效率,较高的加速比和扩展性。(四)在Hadoop平台上实现了Select-attr Random Forest(SRF)并行算法,影响Random Forest算法分类效果的三个主要因素是:森林中树的数量,随机属性特征的选择,构建的决策树之间的相关性。针对这些问题提出了SRF算法,使构造的森林具有较强的分类性能,通过实验证实改进的算法具有较好的分类性能,在集群上有较高的加速比和扩展性。
其他文献
随着有线电视网的普及,单向广播网络的有效利用越来越吸引了众多方面的关注,在单向广播网络上,应用也越来越广泛,如远程教育,政策文件下放等。而这些应用中,文件传输必不可少,如何在
近些年来,由于软件规模的不断增大,传统的手工测试已严重影响了软件的发展。它不但需要投入大量的人力、物力和时间,最终还是由于测试的工作量太大,而无法保证软件测试的充分性,从
20世纪90年代以来,工作流的研究与应用成为IT技术研究的热门课题。深入研究工作流技术对企业改进工作流程、提高工作质量与效率都有着重要意义。工作流模型的好坏对于工作流
随着网络技术和数据库技术的快速发展,数据挖掘技术应运而生。聚类分析是数据挖掘中的重要分支之一,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是
Ad Hoc网络是一种工作在无固定结构环境下的自组织的无线移动网络。它适用于军事或是一些特殊应用场合,例如,战场上部队快速展开和推进、发生地震或水灾后的营救等。在没有网络
地理信息系统(Geographic Information System,GIS)具有集成管理海量空间数据和属性数据的能力,被广泛地应用到各领域。随着其应用的深入,人们在业务应用中越来越重视空间数据和
糖尿病作为一种常见的慢性非传染性疾病,严重威胁人类健康。目前中国的糖尿病患者人数已经超过一亿。糖尿病患者长期有纪律的自我管理可以有效地防止并发症、将病情维持在安
电力系统实时信息软件依赖于多个不同功能的子系统,而各个子系统之间的传统的数据交换方式没有一个统一的标准,造成接口众多、访问性、安全性差等多方面的问题,从而形成了一
随着我国通信事业的发展和基础通信设施的建设,电信网的规模迅速扩大,同时国内电信市场的竞争也日益激烈。对于中国电信运营商的核心业务——网络运行维护工作来说,传统的电
随着计算密集型的嵌入式应用的不断扩展,对嵌入式平台的计算性能及功耗控制提出了更高的挑战,而嵌入式多核处理器能够实现高性能同时保持灵活性和动态低功耗性,已经成为嵌入