论文部分内容阅读
聚类分析与特征降维是模式识别领域两个重要的研究课题。聚类分析作为一种重要的非监督模式识别工具,可用于多种领域,如数据挖掘、生物学、计算机视觉、文档分析等。它旨在将最相似的数据聚为一类,而将最不相似的数据聚为不同的类。特征降维包括特征抽取和特征选择,在模式识别中起着非常重要的作用,它有助于去除多余特征,降低原始数据集的维数。本文针对模糊聚类与特征降维中的几个问题进行了研究,包括基于模糊Fisher准则的半模糊聚类算法、无监督特征抽取以及不平衡数据集特征选择等。本文的创造性研究成果主要有:1将Fisher线性判别扩展为模糊Fisher线性判别,并基于此提出了一种新的聚类算法,称为基于模糊Fisher准则的半模糊聚类算法。该算法将鉴别矢量引入迭代更新方程,因此其异于常见的FCM聚类方程形式。严格地讲,该算法不仅仅基于模糊类内散布矩阵,还基于模糊类间散布矩阵,不同于大多数类似于FCM的聚类只基于模糊类内散布矩阵,因此,从以模糊Fisher准则作为聚类目标函数这个意义上说,FBSC可以视为一个新的模糊聚类算法。实际上,该研究也拓展了Fisher线性判别的应用;2提出一种将最佳鉴别平面特征抽取技术扩展到无监督模式的方法,其基本思想是通过最优化定义的模糊Fisher准则函数求得无监督模式下的第一个最佳鉴别矢量以及模糊散布矩阵。基于此,求得最大化模糊Fisher准则函数前提下满足正交、共轭正交或者既正交又共轭正交的第二个鉴别矢量,由这两个鉴别矢量分别构成无监督最佳鉴别平面、无监督统计不相关最佳鉴别平面或改进的无监督统计不相关最佳鉴别平面;3提出一种将最佳鉴别矢量集扩展到无监督模式下的方法,其基本思想是通过定义的模糊Fisher准则函数将Fisher线性判别扩展成一种半模糊聚类算法,通过该算法求得最佳鉴别矢量和模糊散布矩阵,进而构造出最佳鉴别矢量集。实验结果表明,尽管该方法无法优于传统的有监督最佳鉴别矢量集技术,但却具有与同属无监督特征抽取的主成分分析算法可比的性能;4提出了一种针对不平衡数据的基于后验概率的分类器独立的特征选择算法。该算法首先引入基于Parzen-window方法估算的不平衡因子,并以Tomek Links中点为初始值进行迭代,找出满足后验概率相等的判别边界点,通过对这些点法向量进行投影计算得到反映各特征重要性的权值。实验表明,对于不平衡数据,该算法在不降低分类器总体性能地基础上,不仅可以有效降低维度,节省计算开销,而且能够避免常规特征选择算法用于不平衡数据时忽视小类的缺点。