论文部分内容阅读
模糊聚类是对没有标签的数据集进行有效划分的重要手段之一。随着大数据时代的到来,数据量呈指数增长,然而大多数数据是没有标签的,如何将这些数据准确分类,并为用户提供更准确的服务成了当今社会重点研究的方向。经典的模糊聚类算法(Fuzzy C-means,FCM)因其简单高效得到广泛应用,但其隶属度和为1,数据集中的噪声点和野值点对最终聚类结果影响较大。可能性C均值(Possiblity C-Means,PCM)算法打破隶属度和为1的限制,降低了噪声点和野值点的影响。FCM和PCM算法在对高维数据集进行聚类时,计算效率往往很低下,核函数的引进大大提升了算法对高维数据集进行计算的效率,在FCM和PCM的基础上分别提出了核模糊C均值(Kernel Fuzzy C-means,KPCM)和核可能性C均值(Kernel possiblity C-Means,KPCM)。然而,上述四种聚类算法依旧存在两大问题:忽略类间元素的关系以及初始聚类中心是随机选取的。本文从类间元素的关系、初始聚类中心两方面进行研究,并取得如下成果:针对传统的聚类算法只考虑类内元素的关系而忽略类与类之间关系,对边界模糊的数据集进行处理时,会造成边界点的误分问题,本文在KPCM的基础上提出了一种基于改进核可能性C均值类间极大化聚类算法(Kernel Possibility C-means Maximization,KMPCM)。该算法结合KPCM的目标函数,再施加极大惩罚项,使得类与类中心间的距离拉大,这样就考虑了类间元素的联系,能较好的划分边界处的样本。针对随机选取初始聚类中心导致传统聚类算法的最终结果不稳定的问题,可根据样本分布的紧密度信息,采用最小方差优化初始聚类中心。该初始化算法根据样本的空间分布信息,计算样本的方差得出样本的紧密度信息,选择方差最小的样本点及其一定范围内的样本点作为初始聚类中心,结合KPCM和KMPCM实现改进的模糊聚类算法。该算法由于能取得较好的初始聚类中心,因此能取得较好的聚类结果。但此方法的时间、空间复杂度较高,在处理大量数据集例如图像上时会显得效率不高。本文研究了图像分割中几种经典的方法,图像中像素点灰度值相近和存在噪声点会导致图像的分割效果不理想。针对上述问题,尝试将本文提出运行效率较高的KMPCM算法应用到图像分割中,并与FCM、PCM、KFCM、KPCM算法进行实验对比,实验结果表明KMPCM在图像分割的应用效果更佳。