论文部分内容阅读
聚类是数据挖掘领域的重要技术之一,聚类分析技术将数据区分为自然的群体,用于发现未知领域的分类。聚类分析已经有了很长的研究历史,其重要程度越来越受到人们的重视。聚类分析在统计学、生物学、地质地理学以及客户管理等领域中有着广泛的应用。通常的聚类算法主要有基于划分的、基于层次、基于密度的、基于网格的等等,比较常见的聚类算法有K-means算法、STING算法、CLIQUE算法和CURE算法等。
对于聚类算法的研究近年来主要在于新聚类算法的发明或者对原有的聚类算法的改进。目前已有的改进策略都是针对单个算法本身进行创新,突破其在某一方面的局限性而实现对单个聚类算法的改进。当前数据挖掘所面临的一大挑战是:面对海量的、高维度、包含冗余或者不相关特征的数据集,很多算法的有效性往往会降低,如何克服这些噪音特征的干扰是需要解决的一大问题。而目前的改进策略均是针对单个算法进行改进,只能解决一部分问题,没有一个通用的策略实现对聚类的改进,以处理海量的、高维度或者包含冗余和不相关特征的数据集。本文对此进行了一定的研究,希望提出一个通用的策略解决上述问题,希望剔除或者削弱这些影响,实现对聚类算法的改进。
聚类算法本身在处理数据集时无差异地对待各个特征,认为它们对聚类的贡献程度一致,在处理高维度数据时,这样的策略更会暴露出不足,高维数据中存在大量的冗余和不相关特征,它们会增加算法运行的时间,干扰聚类结果,降低聚类算法的有效性。如果能够发现各个特征对聚类的贡献程度,并且量化各个特征对聚类作用,将量化值作为特征的权重,实现对高维数据的模糊特征选择,那么一方面可以约简维度空间,提高数据的可理解性,另一方面可以提高算法的效率和有效性,达到改进聚类算法的目的。
本文基于一个ULAC(Liu,etc2006)框架实现特征选择,改进聚类算法。首先通过对原始数据集进行聚类,获得各个样本的类标签,将无指导的数据挖掘环境转换为有指导的数据挖掘环境;其次在此基础上进行特征重要性程度分析,计算各个特征重要性程度的度量(Feature Important Factor),通过FeatureImportant Factor实现对数据空间约简,降低数据集的维度,剔除和降低冗余和不相关的特征以实现对聚类算法的改进;最后通过模糊特征加权修改聚类算法,实现对聚类算法的改进。本文基于特征熵值的理论,建立熵值模型计算各个特征的重要性程度度量,在算法运算过程中考虑FIF权重,修正各个特征对聚类结果的影响,改进聚类结果。
本文选取了K-means算法作为模型的验证算法和UCI数据集中的普通数值型数据对本文提出的改进策略进行研究,从SSE变化的角度以及对人为添加的噪音特征的剔除情况进行分析。实验表明,模型挑选出了重要的特征,剔除了人为添加的噪音特征,约简了数据集空间,提高了算法的效率,证明了模糊特征选择对聚类算法改进的有效性。