论文部分内容阅读
聚类分析是数据挖掘与知识发现的核心技术之一。模糊C-均值聚类算法(FCM)是一种基于原型的聚类算法,具有简单、高效、数据适应性强等特点,是聚类分析中使用最为频繁的算法和研究热点。其中最受关注的问题为:(1)如何对FCM算法中目标函数恰当定义使该目标函数既能反映类内“距离”和类间“距离”要求的原则,又能体现各个特征以及不同样本的重要性;(2)无论FCM算法中目标函数如何定义,均会有相应的聚类原型与之对应,从而收敛速度甚至聚类效果必然依赖初始划分,如何建立一种基于模糊理论的聚类算法来规避聚类原型的问题,即从根本上解决对初始划分的敏感性;(3)如何恰当的去刻画半监督FCM算法,使监督样本既能体现其典型性,又不失其局限性;(4)如何减少FCM算法的计算量。针对问题(1)与(4),引入流形学习的相似度度量,从基于判别近邻嵌入流形学习算法、基于几何流形距离和基于统计流形距离三方面对FCM聚类算法展开研究。通过算例,基于几何流形距离的FCM算法能够有效的识别不规则簇;基于判别近邻嵌入流形学习的FCM聚类算法能够有效的进行特征降维并在人脸识别上取得了良好的效果;基于统计流形距离的FCM聚类算法特别适合处理高维且具有统计特性的样本聚类,计算量也较小。另外,将数据的统计特型与聚类算法相结合,研究了在传统FCM算法的目标函数中引入K-L信息熵来规则化FCM算法,并将距离函数采用高斯混合分布,应用于图像的分割,能将背景与目标充分分割开来。同时研究了任意高斯混合分布间的K-L距离度量,得到了更为紧凑的K-L距离度量公式,将其改造成具有对称性的距离度量,并引入到传统FCM算法和基于K-L信息熵规则化FCM算法中,建立了一种新的基于高斯混合分布间对称K-L距离及KL信息熵规则化的FCM聚类算法(GMM_PSKL-FCM),应用于图像聚类和检索中,不仅可以同时处理多类别的图像分类,而且大大减少了计算量。针对问题(1)、(2)与(4),首先研究了样本特征对分类的贡献来确定其权重,提出了基于类间分离度和类内紧缩度的特征加权FCM算法;然后采用加权FCM算法将待分数据集分割成多个小类(冗余类),通过每个样本隶属于各冗余类的隶属度值计算冗余类间的贴近度。以冗余类为图的节点,以冗余类间的贴近度为节点间的权重,并采用Zadeh运算下的Floyd算法计算得到具有较强块对称性的冗余类间的标准贴近度矩阵,提取其谱特征,再次采用FCM算法对谱特征进行聚类完成冗余类的合并。算例表明,基于谱分析的冗余模糊聚类算法既减少了样本容量又规避了聚类原型的影响。针对问题(3),本文将样本的先验知识转化为监督样本的隶属度约束条件加入到传统的FCM算法求解问题中,并根据监督样本的“典型性”赋予其权重,采用HPR(Hestenes-Powell-Rockafellar)乘子法进行求解,建立了一种新的加权半监督FCM算法(SSFCM-HPR)。监督样本的“典型性”取决于离它所隶属的聚类中心的远近,文中取监督样本的最大与次大隶属度值之比作为该监督样本的权重。该算法不仅保留了FCM算法对监督样本的模糊划分性,使其能有效的引导聚类过程,而且能发现其是否为交叉类样本,特别是当监督样本信息有误时,该算法能有效的减少噪声监督样本对整体分类效果的影响。同时本文在理论上还对半监督可能性聚类算法进行了探讨。结合上述流形学习及冗余聚类的FCM算法,可建立相应的半监督聚类算法,相应算法既可减少样本容量又能减低特征维数,从而大大降低算法的复杂度与计算量,从理论上没有难度,本文不再赘述。