一类基于密度的聚类算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：galen621

【摘要】

：

聚类分析中,基于密度的聚类算法占有非常重要的地位,在信息的过滤、检索、医疗卫生和公共服务等各个领域都得到广泛地应用,是聚类分析的重点研究内容。本文对层次聚类算法的

【作者】

：

逄琳

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2017年期

【关键词】

：

聚类算法聚类有效性指标密度距离 MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析中,基于密度的聚类算法占有非常重要的地位,在信息的过滤、检索、医疗卫生和公共服务等各个领域都得到广泛地应用,是聚类分析的重点研究内容。本文对层次聚类算法的特征和密度聚类算法的特征进行研究,提出了基于层次的密度聚类算法,结果表明新算法聚类的准确率和聚类的效率均得到提高。根据Alex Rodriguez和Alessandro Laio提出的一种新的密度聚类算法CFSFDP(Clustering by Fast Search and Find of Density Peaks),提出了Map Reduce框架下该算法的并行化模型。和其他密度聚类算法一样,该算法在并行条件下能对复杂形状的聚类进行处理,并且数据中类的数量也不需要提前指定,同时,CFSFDP算法需要用户指定的参数较少。和需要迭代的聚类算法相比,该算法的运行时间得到很大程度地降低。本文主要的研究工作包括:(1)针对传统的聚类算法需要反复地对数据集聚类,且计算效率在大规模数据集上欠佳的问题,提出了一种改进算法,即基于层次聚类确定最佳聚类数和初始聚类中心的CODHD算法。该算法研究计算过程,对数据集不需要反复进行聚类。首先,通过对数据集进行扫描,进而获得聚类特征的所有的统计值;其次,采用自下而上的方法生成层次不相同的数据划分,对每个划分的数据点的密度进行计算,将密度最大的点定为中心点,计算中心点距离更高密度点的最小距离,将最小距离与中心点的密度作乘积,取乘积之和的平均值作为有效性指标,根据聚类结果,增量地构建一条属于不同层次的曲线;最后,曲线极值点处对应的划分,用来估计初始的聚类中心和最佳的聚类数。实验结果表明,相比较COPS算法,本文提出的CODHD算法,聚类准确率和效率均得到提高。(2)传统的CFSFDP算法能够很好地识别空间中任意形状和任意维度的聚类,但是当处理大规模数据集时,两点之间距离的计算耗费太长时间,为克服提到的缺点,本文提出了一种基于Map Reduce的CFSFDP算法,又称mr CFSFDP。mr CFSFDP只需要读取数据集一遍,因此运行时间很快,运行在多个节点的mr CFSFDP算法的每个阶段都划分为两步:Map阶段和Reduce阶段。在许多数据集上测试了这个算法,实验结果表明,此算法模型是可行的,并且在准确率和效率上都有很好的效果。本文数据集全部取自UCI真实数据集。根据经典的聚类模型,建立了两种新的聚类模型。文中与其他算法进行一些比较,证明了新提出算法在聚类方面具有更好的聚类效果。

其他文献

基于物联网的商场导购系统研究

现如今,商场越建越大,内部结构也越来越复杂,不熟悉商场环境的消费者在购物时比较费时而且不易找到合适商品,本设计以方便用户购物为目的,采用物联网技术为用户展示商场内部

学位

物联网RFIDAndroid平台数据库WiFi

基于交互局部性的在线社交网络数据放置策略研究

随着在线社交网络飞速发展，数以亿计的用户开始在互联网上使用在线社交网络进行沟通交流。如今大型在线社交网络系统一般使用key-value的方式对用户数据进行存储，这种存储方式

学位

在线社交网络服务器间通信交互网络自相似性

基于程序切片谱的软件错误定位技术研究

学位

基于Hadoop的同源性搜索GO功能注释平台的研究

随着第二代基因测序技术的广泛使用,基因测序速度得到了很大地提升。随之产生了海量的生物数据,这些数据需要通过分析、整理和注释之后才能使其具有生物学含义。目前,已经有

学位

基因注释基因本体序列比对云计算HadoopMapReduce

基于应用特征的虚拟机VCPU调度优化技术研究

随着近年来虚拟桌面系统和云计算技术的蓬勃发展，虚拟化技术不断成熟和完善。与此同时，虚拟化环境中的应用服务也呈现多元化，并难以预测。由于虚拟机监视器对于虚拟机上运行的应

学位

Xen虚拟化VCPU调度算法I/O密集型Credit调度算法

虚拟化数据管理平台研究

随着企业数据库的规模越来越大，传统的数据库管理系统已经难以满足企业发展的需要。因此，利用云计算和虚拟化相关技术实现虚拟化数据管理平台，能够更好地适应企业对数据管理的新

学位

虚拟化数据管理资源调度数据服务

基于四维超混沌映射的图像加密算法研究

网络媒体承载了大量的信息，尤其是多媒体信息，对于敏感的图像数据通常要求进行保护处理，这必然带来相应的信息安全问题。数据加密，便是使用计算机系统对信息进行保护从而使信息安

学位

超混沌图像加密混淆扩散伪随机序列

集团企业物流综合管理平台的研究与实现

随着我国经济的不断发展，传统的物流业已经不能满足当前快速发展的企业需求，而现代企业已把物流当作企业之间竞争的重要力量和手段。因此，把现代物流理念、先进的物流技术和现代

学位

物流管理智能调度同省物流

面向整车制造企业的整车物流配送管理系统研究

随着改革开放以来商品经济的高速发展,物流业在国民经济中占有越来越重要的地位,逐步成为当前竞争最激烈的领域之一。汽车制造业的发展程度部分体现一个国家的综合国力,同时

学位

整车配送物流协同物流承运商评价FAHP

基于动态多模网络的虚假评论检测方法研究

web2.0技术的迅速崛起,使越来越多的用户喜欢在电商平台和点评网站上发表评论,分享他们对于产品和服务的观点和感受,这些用户发布的评论信息无论是对消费者还是商家都是至关

学位

虚假评论多模网络逻辑回归用户信誉度情感极性

一类基于密度的聚类算法研究

与本文相关的学术论文