基于分布式平台的聚类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yogonet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析算法是数据挖掘领域的重要研究方向,在工业、商业和科研等领域越来越起到高效提取重要数据信息的作用。随着各领域信息化进程的快速发展,这些领域产生的数据量以爆发式的增长,导致在传统的单机聚类分析算法很难应对如此大规模的数据量。因此将传统聚类算法并行化,利用分布式平台的强大计算能力,来弥补单机算法在性能上的不足。Hadoop作为近几年来流行起来的大规模数据处理分布式计算平台,由于其具有开源性和易扩展性等诸多优点,被越来越多的企事业单位采用,作为分布式计算平台的解决方案,来应对呈指数级增长的数据膨胀的挑战。因此本文研究如何将传统的聚类算法在Hadoop平台上进行并行化实现。CLARA算法作为一种聚类算法,它将统计学中的抽样理论应用到聚类中心点的选择当中。它的特点是能够处理大规模数据并且具有较高的执行效率。算法在执行过程中有很多重复的操作执行,在一定程度上还是影响了算法的执行效率。为了能够解决这个问题,本文提出了将CLARA算法进行并行化实现的想法。首先在研读和分析过往单机聚类算法的原理和性能的基础上,具体分析了 CLARA算法的结构特点,针对算法在执行过程中存在复杂操作的问题,从而提出利用统计学中平均值法近似求解的理论,来进一步简化算法,并阐述了改进的理论基础和思路,以及设计改进后算法的执行流程。同时对改进后的算法进行了实验验证,证明了改进算法的有效性。然后结合MapReduce计算框架的技术特点,提出将原单机上聚类算法进行MapReduce并行化的总体思路和分类。具体对CLARA聚类算法进行深入分析,剖析算法的结构特点和执行过程,分析算法可以实现并行化的可能性和可行性。设计CLARA算法并行化的具体实现步骤,同时对单机上改进后的CLARA算法也进行了并行化设计。本文最后,搭建了一个Hadoop集群来对提出的改进算法的性能进行试验验证,并对实验结果进行具体的分析。通过分析,改进后的算法在性能上有不错的提高,证明并行化方法的设计和进一步的改进方法是有效的。
其他文献
随着经济全球化进程的加快和现代物流对经济发展的重要性逐步为国人所认识,我国的物流产业正处于一个高速发展的时期。现代物流的根本宗旨是提高物流效率、降低物流成本、满
三维建模理论、三维动画技术和三维虚拟技术,都是计算机图形学可视化领域的热门研究方向。它们在制造业中有着广泛的应用,通过将其应用于制造业,为不同用户(设计者、制作者、客
数字农业将工业可控生产和计算机辅助设计的思想引入农业,NURBS方法是自由曲线和曲面描述广为流行的技术,在CAD系统中得到广泛的应用。应用NURBS方法可以方便地生成曲线、曲面
近年来,以点作为计算机图形造型和绘制的基本元素的方法,由于其存在着多项内在优势而得到了图形学研究者的广泛关注,并迅速形成了计算机图形学领域的一个新的分支:基于点的计算机
目前,随着我国公路建设发展迅速,对于公路建设与生态环境协调发展的要求也不断的提高。但是公路生态景观恢复评价建设任务繁重,传统的恢复评价模式和手段已经明显不能适应要
随着计算机技术和网络通信技术的快速发展,使得无线自组织网络技术越来越多的被人们所使用。传统的无线自组网由于没有处理链接中断和网络分裂的专门方案,所以当网络通信环境
后PC时代的到来,使得人们开始越来越多地接触到嵌入式产品,形式多样的数字化设备正使得我们的地球变成了一个具有电子皮肤的“地球生物”,嵌入式技术已成为一个研究热点和消费热
计算机及互联网科学技术的进步,对各个领域的促动极大,由计算机安全引发的问题,越来越引起人们的强烈关注。计算机病毒是计算机安全问题的重大隐患。Windows系列操作系统在用
近几年来,在软件工程领域,基于构件的开发方式逐渐成为创建可扩展系统的一种重要手段。和传统的软件开发方法相比,基于构件的开发方法在体系结构、开发过程、软件方法学和软件构
Peer-to-Peer(简称P2P)是一种很有发展潜力的网络技术,在对等计算、协同工作、搜索引擎、文件交换等领域相比传统的C/S模式有着不可比拟的优势。Gnutella是一种P2P的网络通信