论文部分内容阅读
在数据挖掘中,聚类分析占据着重要的位置,它是一种无监督分类。在聚类算法中,可能性C均值(PCM)和模糊C均值聚类(FCM)是两种比较经典的算法,他们是基于目标函数的算法。本文针对他们的聚类精度不高,鲁棒性差的缺点,通过改进目标函数来提高聚类精度和增强算法的鲁棒性。主要工作如下: (1)PCM算法是一种应用比较广泛的聚类方法,但该算法对其参数比较敏感,使得聚类精度和鲁棒性较差。为了解决上述问题,提出了一种基于遗传方法的直观模糊可能性C均值聚类算法(IFPCM-GA),该方法保留了PCM的优点,同时使用核函数避免非鲁棒性的欧氏距离,提高了算法的鲁棒性;把直观模糊集理论融入到加核的PCM中得到直观模糊可能性C均值聚类(IFPCM)算法,IFPCM可以获得进一步精确的隶属度与聚类中心,从而改善算法的聚类性能;采用遗传方法搜索IFPCM参数的最优值,能够有效改善聚类结果。 (2)提出一种基于邻域信息的自适应核模糊聚类算法。模糊聚类是一种应用比较广泛的聚类算法,但是由于受噪声和野点的干扰,其算法的鲁棒性较差。以往的聚类算法,通常引入核函数来提高算法的鲁棒性。为了能够进一步增强算法的鲁棒性,首先加入聚类数据的近邻信息,获得每个聚类数据的邻域均值,来平滑掉噪声点的影响。在模糊聚类的同时,还期望能够获得更纯粹的划分,因此在目标函数中加入隶属度约束项产生更纯粹的划分。最后,采用免疫克隆算法来搜索获得该算法中参数的最优值,合适的参数值能够进一步提高算法的性能。 (3)提出一种改进模糊划分的核模糊C均值聚类算法。聚类分析追求两点:同一簇中的数据更紧凑,不同簇间的数据更离散。以往的模糊聚类算法,在聚类的时候会更多地考虑前者,而往往忽略了后者;通过加入不相似矩阵来改进隶属度,可以提高类间的分离性,能够有效改善聚类效果。在聚类时,每个数据对聚类的贡献是不一样的,应用密度权重为每个聚类数据加权,可以获得更精确的聚类中心。