基于快速密度峰值搜索的聚类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:echoifanfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代的到来,使得互联网上各种形式的数据信息表现出爆发式增长的趋势,导致如何从这些海量的信息中及时准确地搜索到对用户有用的信息已是一种迫不及待需要解决的问题。聚类技术作为数据挖掘学习的重要工具,也成为了现今科学领域研究的热点。基于快速密度峰值搜索的聚类算法(Clustering by fast search and find of density peaks)于2014年在Science杂志上提出,迄今为止已得到各领域广泛认可。尽管如此,CFSFDP算法仍然存在不足之处:(1)无法有效处理位于数据集低密度区域内的数据点,错误地将异常点、中间节点归类于簇类中;(2)人为参与选取簇类中心,降低了算法获取真实簇类的客观性和准确性;(3)无法有效处理复杂结构数据,在处理复杂流型、差异化密度、差异规模数据等复杂数据时表现不佳。鉴于上述问题,本文研究了基于快速密度峰值搜索的聚类算法(CFSFDP),并对其进行改进,提出了基于势能熵的快速密度峰值搜索的聚类算法(PEE-CFSFDP);并在此基础上研究提出一种融合K-means算法和改进的基于快速密度峰值搜索的聚类算法,在UCI数据集以及人工数据集上验证了改进的聚类算法具有很好的稳定性以及准确率,详细内容如下:第一,本文在参考了大量相关的聚类算法文献后,比较系统地介绍了聚类算法的各种相关知识,如各种聚类算法,如何评估聚类算法的性能等等。第二,基于快速密度峰值搜索的聚类算法(CFSFDP)是基于密度和距离的聚类算法。本文通过对CFSFDP聚类算法进行大量实验研究,分析了该算法的优缺点,得出了该算法中存在对于截断距离的人工设置引发的局部密度计算问题、对于小数据集算法聚类效果较差以及样本归类出现某一个样本分配错误引发的一连串的样本分配错误以及类簇中有样本重叠等问题。针对CFSFDP聚类算法的不足进行了相应的改进。本文引入了一种数据域的势能熵概念来自动定义样本局部密度度量函数的优化算法(PEE-CFSFDP),通过势能和熵值来自动地选择截断距离,来规范聚类的局部密度。仿真实验表明PEE-CFSFDP的聚类效果更加科学合理。第三,了解K-means算法的主要思想后,针对K-means算法随机选取K个点作为初始聚类中心进行迭代操作导致聚类结果的不稳定,针对PEE-CFSFDP聚类算法和K-means算法各自的特点,本文提出了一种融合了PEE-CFSFDP聚类算法和K-means算法的KPEE-CFSFDP算法。在执行PEE-CFSFDP聚类算法计算出聚类K值以及选取好聚类中心后,再运用K-means算法进行迭代聚类,从而弥补了K-means算法需提前给定聚类个数、聚类中心随机选取和初始聚类中心选取敏感的缺点。通过K-means算法、DSSK-means算法、MDK-means算法和KPEE-CFSFDP聚类算法的实验对比,通过查准率、召回率和F值对算法的聚类结果进行了比较和分析,证明了融合算法的有效性,表明了融合后的算法在准确率、稳定性上有极大的提升。
其他文献
随着图像信息资源的增多,图像资源管理变得愈加重要。同时,对于图像的检索也成为国内外研究的热点。在基于文本的图像检索基础上发展出了基于内容的图像检索,该方法克服了基于文本检索方法消耗人力资源大以及主观因素强等缺点。在基于内容的图像检索中,基于全局特征的检索算法比较简单,计算速度快,但是具有歧义性,检索效果受图像中背景及其它物体影响较大。而基于局部特征的检索可以减少全局特征检索的这些缺点,但目前的基于
由于噪声的多样性,很难找到一种适合于去除各种噪声的语音去噪算法,所以必须针对不同噪声,采取不同的语音去噪对策。 本文根据短波中主要存在起伏噪声,同时也存在脉冲噪声和单
目前的翻译自动评测方法普遍针对的是机器翻译,通过计算候选译文和参考译文的相似度来实现不同系统性能的对比,但是这种策略对于无参考译文的人工翻译或者机器辅助翻译来说是
随着流媒体技术、网络技术的发展,以及安全防护、安全生产等方面的需要,基于网络的视频监视、视频监控系统逐渐成为当前研究的热点问题。在深入研究视频监视技术以及Texas In
电力通信流程管理系统是电网安全生产的重要保障,也是电力通信网主要的管理工作职能之一和不可分割的重要组成部分。电力通信流程管理系统建设和运行的好坏直接影响到电力通信管理的效率和质量,最终影响企业的安全生产。随着电网的发展和通信技术的变化,电力通信网规模不断扩大,结构日趋复杂,通信业务快速增加,通信管理的难度也越来越高,原有的一些通信管理方式已落后于电网的发展方式和管理要求。特别是各种通信数据统计、通
在欠发达地区,由于资金较少、组网技术较落后,学校教学办公网络的组建和改造首选就是无盘网络,但无盘网络的组建、调试和维护是相当复杂的。为了更好地为学校的教学办公服务,
在遥感数据海量增加的今天,对遥感数据的快速有效处理变得越来越重要,而遥感影像的分类作为遥感数据预处理工作的一个重要环节,更是起着不可忽视的作用。随机森林作为一种分类算
网络控制是指本地计算机通过网络系统对远端的设备进行监测与控制。它应用于危险环境下的远程作业、远程医疗以及远程教育等众多方面,具有广阔的应用前景。本文主要设计和实
随着嵌入式技术的发展和互联网的普及,我们正步入一个紧密联系的世界和信息革命的时代。技术上的成就为探索未知世界提供了更科学、更有效的手段,同时也为人们的日常生活提供
新型低廉的RGB-D相机像微软的Kinect是一种体感传感器,它在动漫、游戏中有着广泛的应用。由于其产生的深度图像噪声大,如何通过这些粗糙甚至不全的信息获得精细、平滑和精度