一类基于密度的聚类算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:galen621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析中,基于密度的聚类算法占有非常重要的地位,在信息的过滤、检索、医疗卫生和公共服务等各个领域都得到广泛地应用,是聚类分析的重点研究内容。本文对层次聚类算法的特征和密度聚类算法的特征进行研究,提出了基于层次的密度聚类算法,结果表明新算法聚类的准确率和聚类的效率均得到提高。根据Alex Rodriguez和Alessandro Laio提出的一种新的密度聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出了Map Reduce框架下该算法的并行化模型。和其他密度聚类算法一样,该算法在并行条件下能对复杂形状的聚类进行处理,并且数据中类的数量也不需要提前指定,同时,CFSFDP算法需要用户指定的参数较少。和需要迭代的聚类算法相比,该算法的运行时间得到很大程度地降低。本文主要的研究工作包括:(1)针对传统的聚类算法需要反复地对数据集聚类,且计算效率在大规模数据集上欠佳的问题,提出了一种改进算法,即基于层次聚类确定最佳聚类数和初始聚类中心的CODHD算法。该算法研究计算过程,对数据集不需要反复进行聚类。首先,通过对数据集进行扫描,进而获得聚类特征的所有的统计值;其次,采用自下而上的方法生成层次不相同的数据划分,对每个划分的数据点的密度进行计算,将密度最大的点定为中心点,计算中心点距离更高密度点的最小距离,将最小距离与中心点的密度作乘积,取乘积之和的平均值作为有效性指标,根据聚类结果,增量地构建一条属于不同层次的曲线;最后,曲线极值点处对应的划分,用来估计初始的聚类中心和最佳的聚类数。实验结果表明,相比较COPS算法,本文提出的CODHD算法,聚类准确率和效率均得到提高。(2)传统的CFSFDP算法能够很好地识别空间中任意形状和任意维度的聚类,但是当处理大规模数据集时,两点之间距离的计算耗费太长时间,为克服提到的缺点,本文提出了一种基于Map Reduce的CFSFDP算法,又称mr CFSFDP。mr CFSFDP只需要读取数据集一遍,因此运行时间很快,运行在多个节点的mr CFSFDP算法的每个阶段都划分为两步:Map阶段和Reduce阶段。在许多数据集上测试了这个算法,实验结果表明,此算法模型是可行的,并且在准确率和效率上都有很好的效果。本文数据集全部取自UCI真实数据集。根据经典的聚类模型,建立了两种新的聚类模型。文中与其他算法进行一些比较,证明了新提出算法在聚类方面具有更好的聚类效果。
其他文献
现如今,商场越建越大,内部结构也越来越复杂,不熟悉商场环境的消费者在购物时比较费时而且不易找到合适商品,本设计以方便用户购物为目的,采用物联网技术为用户展示商场内部
随着在线社交网络飞速发展,数以亿计的用户开始在互联网上使用在线社交网络进行沟通交流。如今大型在线社交网络系统一般使用key-value的方式对用户数据进行存储,这种存储方式
学位
随着第二代基因测序技术的广泛使用,基因测序速度得到了很大地提升。随之产生了海量的生物数据,这些数据需要通过分析、整理和注释之后才能使其具有生物学含义。目前,已经有
随着近年来虚拟桌面系统和云计算技术的蓬勃发展,虚拟化技术不断成熟和完善。与此同时,虚拟化环境中的应用服务也呈现多元化,并难以预测。由于虚拟机监视器对于虚拟机上运行的应
随着企业数据库的规模越来越大,传统的数据库管理系统已经难以满足企业发展的需要。因此,利用云计算和虚拟化相关技术实现虚拟化数据管理平台,能够更好地适应企业对数据管理的新
网络媒体承载了大量的信息,尤其是多媒体信息,对于敏感的图像数据通常要求进行保护处理,这必然带来相应的信息安全问题。数据加密,便是使用计算机系统对信息进行保护从而使信息安
随着我国经济的不断发展,传统的物流业已经不能满足当前快速发展的企业需求,而现代企业已把物流当作企业之间竞争的重要力量和手段。因此,把现代物流理念、先进的物流技术和现代
随着改革开放以来商品经济的高速发展,物流业在国民经济中占有越来越重要的地位,逐步成为当前竞争最激烈的领域之一。汽车制造业的发展程度部分体现一个国家的综合国力,同时
web2.0技术的迅速崛起,使越来越多的用户喜欢在电商平台和点评网站上发表评论,分享他们对于产品和服务的观点和感受,这些用户发布的评论信息无论是对消费者还是商家都是至关