论文部分内容阅读
聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支。聚类的最终目的是使相似的样本之间的距离尽可能地小,而不相似的样本之间的距离尽可能地大。随着模糊集理论的提出和不断发展,模糊聚类分析已成为聚类分析研究的主流。其中理论最完善,应用最广泛的是基于目标函数的模糊C均值(Fuzzy C-Means,FCM)算法。如今FCM算法已被广泛地应用于数据挖掘、模式识别等领域中。文本挖掘是数据挖掘研究的一个重要领域。在进行文本处理时,需要把文本数据从非结构化的形式,转化为计算机可以直接处理的结构化形式。而目前计算机还难以理解人类自然语言之间的语义歧义等问题,因此,要达到更好的符合现实需要的数据挖掘效果,还需要结合其它方面的知识对文本挖掘进行更深入的探索与研究。而FCM算法用于文本挖掘还存在着许多问题。本文首先对模糊C-均值算法,可能性聚类算法,可能性模糊C均值算法进行了实验模拟分析和比较;其次针对FCM算法的不足做了相关改进:(1)针对传统模糊C-均值聚类算法对初始聚类中心较为敏感的问题,利用FCM算法运行最后所得的聚类中心作为新的算法的初始聚类中心,避免了上述问题;(2)由于模糊C-均值算法不考虑不同样本集对聚类结果的影响,而实际应用中不同的样本对聚类的贡献程度不一样,也就是不同样本集对聚类有着不同程度的影响。针对此问题,对样本的隶属度进行了优化,引入了一个样本权重,考虑了样本对聚类的影响,并进行了实验模拟仿真;(3)针对经典的模糊C-均值聚类算法对噪声数据较为敏感、未考虑样本特征间的不平衡性等问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中并与模糊C-均值聚类算法相结合,在聚类过程中动态计算样本权值和特征权值,并利用核函数把低维特征空间中线性不可分的数据映射到高维特征空间中的可分数据,以提高聚类的准确率和抗噪性。同时将新算法与模糊C-均值算法、可能性聚类算法、可能性模糊C-均值聚类算法在UCI数据集、X12数据集和人造含噪声数据集上进行聚类实验,对新算法的聚类准确率和抗噪性进行验证分析。