论文部分内容阅读
Web2.0时代的到来,使得互联网上各种形式的数据信息表现出爆发式增长的趋势,导致如何从这些海量的信息中及时准确地搜索到对用户有用的信息已是一种迫不及待需要解决的问题。聚类技术作为数据挖掘学习的重要工具,也成为了现今科学领域研究的热点。基于快速密度峰值搜索的聚类算法(Clustering by fast search and find of density peaks)于2014年在Science杂志上提出,迄今为止已得到各领域广泛认可。尽管如此,CFSFDP算法仍然存在不足之处:(1)无法有效处理位于数据集低密度区域内的数据点,错误地将异常点、中间节点归类于簇类中;(2)人为参与选取簇类中心,降低了算法获取真实簇类的客观性和准确性;(3)无法有效处理复杂结构数据,在处理复杂流型、差异化密度、差异规模数据等复杂数据时表现不佳。鉴于上述问题,本文研究了基于快速密度峰值搜索的聚类算法(CFSFDP),并对其进行改进,提出了基于势能熵的快速密度峰值搜索的聚类算法(PEE-CFSFDP);并在此基础上研究提出一种融合K-means算法和改进的基于快速密度峰值搜索的聚类算法,在UCI数据集以及人工数据集上验证了改进的聚类算法具有很好的稳定性以及准确率,详细内容如下:第一,本文在参考了大量相关的聚类算法文献后,比较系统地介绍了聚类算法的各种相关知识,如各种聚类算法,如何评估聚类算法的性能等等。第二,基于快速密度峰值搜索的聚类算法(CFSFDP)是基于密度和距离的聚类算法。本文通过对CFSFDP聚类算法进行大量实验研究,分析了该算法的优缺点,得出了该算法中存在对于截断距离的人工设置引发的局部密度计算问题、对于小数据集算法聚类效果较差以及样本归类出现某一个样本分配错误引发的一连串的样本分配错误以及类簇中有样本重叠等问题。针对CFSFDP聚类算法的不足进行了相应的改进。本文引入了一种数据域的势能熵概念来自动定义样本局部密度度量函数的优化算法(PEE-CFSFDP),通过势能和熵值来自动地选择截断距离,来规范聚类的局部密度。仿真实验表明PEE-CFSFDP的聚类效果更加科学合理。第三,了解K-means算法的主要思想后,针对K-means算法随机选取K个点作为初始聚类中心进行迭代操作导致聚类结果的不稳定,针对PEE-CFSFDP聚类算法和K-means算法各自的特点,本文提出了一种融合了PEE-CFSFDP聚类算法和K-means算法的KPEE-CFSFDP算法。在执行PEE-CFSFDP聚类算法计算出聚类K值以及选取好聚类中心后,再运用K-means算法进行迭代聚类,从而弥补了K-means算法需提前给定聚类个数、聚类中心随机选取和初始聚类中心选取敏感的缺点。通过K-means算法、DSSK-means算法、MDK-means算法和KPEE-CFSFDP聚类算法的实验对比,通过查准率、召回率和F值对算法的聚类结果进行了比较和分析,证明了融合算法的有效性,表明了融合后的算法在准确率、稳定性上有极大的提升。