基于Hadoop平台的聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:a67826766
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,数据量呈指数式增长趋势,传统聚类算法存在着处理大数据时间长以及难以达到预期效果的缺陷,因此传统的聚类方法已经无法满足需求。云计算平台应运而生,它是由并行计算发展而来的,Hadoop是目前使用最广的云计算平台,通过把云平台与聚类算法结合使用,可以有效处理大规模数据。MapReduce模型是Hadoop云计算平台最核心的模块,目前研究最多的就是基于MapReduce模型来提高聚类算法的效率,随着数据量的不断增长,利用MapReduce模型处理大数据进行聚类已经成为研究的热点。在目前的关于云平台的聚类方法研究中,关键问题是如何实现传统的聚类算法的并行化,或者基于云平台实现聚类算法的分布式架构,而评价云计算平台的性能指标主要是加速比等。本文对基于云平台的聚类算法进行了深入的研究,并做了以下工作:首先,针对Canopy-kmeans算法的不足,提出了一种改进的方法。该方法通过分组和抽样来降低算法的时间复杂度,并通过最大最小原则对Canopy-kmeans算法进行了改进,以提高算法的有效性。基于MATLAB的仿真结果表明,改进算法的时效性和有效性都得到了改善。基于MapReduce模型,在Hadoop云平台上实现了改进的Canopy-kmeans算法。实验结果表明,随着节点数的线性增加,分布式集群的加速比呈线性增长趋势,能高效处理大规模数据。然后,针对一种新型的基于密度的聚类算法CFSFDP处理大数据量时间复杂度高的缺点,提出了一种改进的算法R-CFSFDP,该算法首先抽样部分数据,然后基于抽样出来数据的最有“代表性”的m个点来归类未被抽样的数据。基于MATLAB的仿真结果表明:R-CFSFDP算法大大降低了算法的时间复杂度。R-CFSFDP算法虽然时效性得到了提高,但是仿真结果也表明改进算法的有效性有所下降,而且R-CFSFDP算法无法与云平台有效结合,针对以上不足之处,本文又提出了n-CFSFDP算法:该算法首先将数据集进行分组,然后采用CFSFDP算法对子数据集进行聚类,最后依据子数据集的m值合并聚类结果。与R-CFSFDP算法不同,该算法对所有的数据都进行了CFSFDP算法,因此该算法有较好的有效性。基于MATLAB的仿真结果表明:n-CFSFDP算法在保证有效性的情况下,大大降低了算法的时间复杂度。基于MapReduce模型,在Hadoop平台上实现了n-CFSFDP算法。实验结果表明,随着节点数的增加,分布式集群的加速比呈快速增长趋势,可以高效地处理海量数据。
其他文献
随着无线通信技术的不断成熟和发展,无线通信系统的安全问题已成为制约其未来发展的因素之一。尽管已有的上层安全机制已经较为成熟,但并没有彻底解决无线通信系统物理层的安全
本文介绍了在移动云服务环境下,基于信任评估的个人数据访问控制系统CloudFile的设计和实现。在对国内外学者关于云计算中数据访问控制的研究现状和问题分析基础之上,本文提
现代信息化社会的进步是与移动通信的发展密不可分的,关于信道特性的研究对于移动通信网络的规划与优化尤为重要。无线信道特性严重影响着移动通信系统的性能。因而,对于无线
近三十年来,现代移动通信技术飞速发展,LTE技术的商用标志着移动通信步入4G时代。LTE通信系统通过随机接入过程建立上行定时同步,因此随机接入是上行数据传输的前提。本论文
随着信息技术的不断发展,云存储技术基于其传送速度快、共享性好、存贮容量大、使用成本低、访问方便、动态关联等诸多优点,对实现医疗系统中网络间的信息传递和共享起到了至
用,电子化程度越来越高,从而导致车身系统控制线束呈几何级数增长。过多的线束负载使汽车重量急剧上升,汽车操作的稳定性却严重下降。在这样的背景和环境下,一种局部互联现场
随着计算机和通信技术的迅速发展,人们对所提供的服务数量以及服务种类的需求也不断增长,这就使得NGN的核心软交换技术得到了重视。软交换技术的主要特点是业务与呼叫控制相
随着经济的发展,城市车辆数量急剧增大,交通问题日益突出,如何获得准确的城市交通流量已经成为智能交通系统的一个热点研究领域,受到日益广泛的关注。公安320工程旨在对城市行驶
随着无线通信技术的发展,认知无线电(CR)技术被用来提高频谱资源利用率。认知ad hoc网络(CRAHN)将CR扩展到了自组织网络域,进一步增强了ad hoc网络的频谱利用率和组网的灵活
胜坨油田二区目前已进入特高含水开发后期,为了解套管损坏情况,应用40臂井径、声波电视测井对套管技术状况进行监测,根据套损分类情况,对套损成因进行了初步探讨,总结出套管