论文部分内容阅读
数据挖掘是人工智能领域中的重要组成部分,同时也是一个多领域交叉的学科,广泛的应用于数据处理方面。Pawlak于1982年提出了粗糙集理论(Rough Set,RS),其能够处理数据集中不明确的以及不完备的信息,可以从庞杂的数据中提取出蕴含的重要模式。但是,当数据集中存在噪音数据时,粗糙集在处理此类数据时存在过拟合而无法准确的提高数据处理能力的问题。因此为增强对噪音数据的抗干扰能力,W.Ziarko于1993年提出了变精度粗糙集(Variable Precision Rough Set,VPRS)模型,该模型通过引入了一个精度?来降低RS理论对近似边界区域的严格要求,使得集合的上、下近似拓展到任意精度水平??[0,0.5),VPRS是对经典RS的一种理论拓展。聚类分析是根据对象之间的差异性来反映对象间的相似性,使得类内对象之间的差异性尽可能小,类间对象的差异性尽可能大。K-means聚类算法是一种重要的划分方法,该算法是任意选取簇数K以及聚类中心,将样本数据集分成多个类或簇。K-means聚类算法存在的不足之处是任意选取初始化聚类中心、簇数K以及数据集中存在的噪音数据对聚类结果的影响等问题。本文主要针对K-means算法中的不足之处进行改进,首先将粗糙集理论与K-means算法相结合,提出了自适应的K-means聚类算法;其次将变精度粗糙集理论与K-means聚类算法相结合,提出了基于变精度粗糙集的K-menas聚类算法。通过在合成数据集上做实验验证了本文提出的方法的有效性。本文主要的研究工作如下:1.提出了自适应的K-means聚类算法。主要针对K-means聚类算法中任意选取聚类中心、K值以及数据集中存在噪音点数据对聚类的影响。该算法无需设置初始聚类中心以及K值,利用数据集中数据对象的密度区域连续分布这一特点进行聚类。该算法主要采用粗糙集理论中的上下近似与K-means聚类算法相结合来实现小类的合并,最终自适应的完成聚类。2.提出了基于变精度粗糙集的K-menas聚类算法。主要针对自适应的K-means聚类算法中的噪音点数据对聚类结果的影响做出进一步的改进,该算法将变精度粗糙集理论与K-means聚类算法相结合,采用小类合并的方法,通过设置不同的半径值求出样本对象密度连续区域中小类的上下近似区域,使得更多的样本对象进入近似区域中,并采用K-means聚类算法计算聚类中心,自适应的统计出聚类个数K。3.将自适应的K-means聚类算法与基于变精度粗糙集的K-menas聚类算法应用于合成数据集的分类。基于变精度粗糙集的K-menas聚类算法能够有效处理噪音点对聚类效果的影响,同时通过设置不同的半径r来确定相应的阈值?,进而可以得到相应的近似区域以及边界域。并通过实验验证了本文算法在合成数据集上的聚类效果。