论文部分内容阅读
随着计算机技术、数据存储技术和数据库技术等飞速发展,特别是互联网技术的广泛应用,个人电脑和互联网服务器上每天都会出现海量数据。从这些数据中挖掘出有价值的信息以指导政府和商业公司的进一步工作,即数据挖掘,就显得非常具有实际意义和商业价值。
聚类作为数据挖掘的一个重要研究方向,可以有效地挖掘出这些数据背后所包含的知识。由于传统的聚类方法在聚类过程中,对数据对象的特征同等看待,即对所有的特征赋予相同的权重;而实践表明,数据对象的聚类效果往往取决于特征的某个子集,即不同特征在聚类中的贡献度不同。同时,传统的聚类方法的聚类结果刚性地把数据归为某一类,而实际情况证明,一个数据往往有不同可能性的分类结果。针对以上两个问题,本文在介绍了国内外相关研究现状后,利用Fisher线性判别率的思想计算特征的贡献度,对特征加权及其图像分割应用进行了深入研究。
本文的主要工作如下:
1.介绍了数据挖掘的基本理论,包括数据挖掘的概念、过程和研究内容。讨论了数据挖掘中聚类分析的概念,主要聚类算法的分类及其实现原理。
2.详细分析了K-Means聚类方法的聚类过程、实现原理。研究了Fisher线性判别率的基本原理,实现过程,经典应用。并将依据Fisher线性判别率计算特征贡献度的思想应用到K-Means聚类方法中,实现了加权K-Means聚类。在人工和实际数据集上所做实验表明,本文所提方法在聚类效果上优于所比较的原始K-Means算法,w-K-Means算法及FWAS-K-Means算法。
3.分析了模糊度的概念,思想及实现过程。将模糊度的思想应用到加权K-Means聚类中实现了加权模糊K-Means聚类。将该算法应用于图像分割领域。图像像素按照隶属度的不同,进行加权聚类,所得图像分割的实际结果表明,本文所提方法在分割图像效果上优于原始模糊K-Means分割算法,Bootsrap加权模糊K-Means分割算法。