论文部分内容阅读
随着信息技术的不断发展,人们已经积累了越来越多的数据。面对这些数据,如何从中找出对生产生活有用的知识已成为数据挖掘、模式识别和机器学习等领域的一个重要研究问题。K-means聚类算法是帮助人们解决这一问题的重要手段之一。K-means聚类算法由于它的高效性及简单性,已被广泛的应用于各个行业与领域。然而K-means聚类算法的效果受两个与生俱来的问题影响,一个是确定簇的个数的问题,也就说模型选择问题;另一个是它的局部优化问题,这使得聚类结果非常依赖于初始中心的位置。Li Mark提出的凝聚模糊K-means算法可以有效的避免这两个问题。本文基于该算法,对以下三个方面问题的做了研究:(1)多级密度数据(不同密度且具有层级结构簇数据)的聚类问题。本文首先基于凝聚模糊K-means算法,提出一种Clustering Tree算法。该算法通过层次式的使用凝聚模糊K-means算法,并结合簇评估和高斯分布检测的办法去生成一棵聚类树,从而解决经不同密度且具有层级结构簇的数据的聚类问题。经实验验证,该算法能有效的解决这种数据的聚类问题,同时由于这棵树反映了各个簇之间的结构关系,其还很有利于发现更有用的信息。(2)含有少量先验信息数据的聚类问题。基于Clustering Tree算法提出了半监督Clustering Tree算法,该算法利用数据中的一些先验信息去解决半监督聚类的问题,并通过实验验证了该算法的性能。(3)应用本文所提出的Clustering Tree的聚类算法在训练数据上建立一棵聚类树,基于这棵聚类树形成了类决策树和类KNN的两种分类办法,实验结果显示出该分类算法能得到与传统的决策树等分类算法相当甚至更好的分类精度。在完成本文的研究内容后,最后提出了可以进一步研究的内容及方向,对于以后的K-means聚类算法的研究及应用问题有一定的指导意义。