论文部分内容阅读
模式识别是机器学习中的一个基本问题,其目的是将数据对象进行分类。这里的数据对象一般与应用领域相关联,比如我们常说的图像、信号波形或者任何可以被测量且需要分类的对象。作为无监督的模式识别方法—聚类分析,是模式识别的一个重要研究领域。聚类分析算法能够深入到输入数据对象的内部,探索其群组结构。目前聚类分析已经被广泛应用于各种数据分析场合,例如计算机视觉分析、图像处理、医疗信息处理、统计分析、生物科学和心理科学等。其基本原理就是将输入的数据对象分成不同的群组,同一组中的数据对象拥有相似的特性,反之不同组中的数据对象特性相异。针对目前国内外关于聚类分析算法的研究现状,本文主要选择了一些经典算法:K-means、K-means++、Mean Shift以及DBSCAN进行了比较深入的研究。主要是对它们的内容进行了简单介绍,指出了其算法的优缺点,并针对其缺点进行了一些改进,提出了新的基于密度的聚类算法—Potential-based算法和KNN-Potential-based—算法。首先,本文介绍了模式识别的研究背景与意义,简单的分析了聚类分析的发展与应用现状,指出了聚类分析在当今科学研究中的重要地位。其次,本文就聚类分析的相关基础理论做了一个比较全面的介绍,从最基本的聚类定义及表示开始,到相似度测量,再到常见聚类方法,最后着重介绍了四种常见的聚类算法—K-means、K-means++、Mean Shift和DBSCAN。对这四种经典算法的思路及流程做了比较详细的描述,总结了这些算法的优缺点。又给出了聚类的评价函数,旨在提高聚类算法的有效性。接着,本文结合基于势能模型的聚类,对Mean Shift算法做出了相应的改进,提出了Potential-based算法。利用势能替换了Mean Shift中每个数据对象的密度估计,并且每个数据对象的移动向着势能最低的方向进行。通过理论分析和实验仿真可以看出,该算法能够识别出各种形状各种分布的簇,自动确认簇的数目,无需人为干预。尤其是对均匀分布的簇,该算法表现出了较完美的效果。最后,本文在前文介绍的势能聚类模型的基础上,结合KNN近邻算法,提出了另外一种新的基于密度的聚类算法—KNN-Potential-based算法。该算法主要创新点在于密度估计方面。通过两次密度的调整,得到最终的每个数据对象的密度,再利用此密度在一个半径球内找到密度最大的数据对象作为父辈节点,再通过父辈节点找到每个点的根节点,从而构建聚类树。通过理论分析和实验仿真可以看出,该算法不具备随机性,因而只需做一次聚类就可以找到最优聚类结果,而且能够识别出各种形状各种分布的簇,自动确认簇的数目。