论文部分内容阅读
模糊聚类已广泛应用于图像处理、模式识别等领域。传统聚类分析方法只能应用在完备数据集上,不能直接应用于不完备数据集。但是在实际应用中,由于各种原因数据通常是不完备的,而且缺失属性的处理对聚类效果有着显著影响。因此,研究不完备数据集的聚类方法是一个具有实际应用意义的问题。本文以缺失属性值的最近邻区间为基础,研究了不完备数据的聚类方法。最近邻区间描述能够在一定程度上体现缺失属性值的不确定性,但是没有对近邻样本的属性值进行充分挖掘,不能体现近邻样本的属性值分布信息。本文利用近邻样本相应属性值在最近邻区间范围内的分布信息,为缺失属性值建立一种简单有效的概率模型(Probability Model,PM)。通过遗传算法和梯度下降法迭代实现聚类,遗传算法通过概率取值来进行初始种群和变异操作,梯度下降法通过缺失属性值的概率来确定搜索步长。算法在相应最近邻区间范围内依据概率搜索缺失属性估算值以极小化聚类目标函数,通过对基于优化的缺失属性估计值还原数据集进行FCM聚类可以较好的实现不完备数据模糊聚类问题。本文所提缺失属性值概率模型不仅能够将最近邻信息引入缺失属性描述,并且充分挖掘了相应属性值在最近邻区间范围内的分布信息,因此能够较为有效地“还原”缺失属性值。遗传算法有精细的全局搜索能力,且稳定性较好;而梯度下降法具有快速搜索的能力,能够快速搜索到比较好的解,可以得到不错的聚类结果。在多个UCI数据集上的仿真实验表明:概率模型较其他缺失属性的描述方法,是一种描述不完备数据缺失属性值的有效方法,在此基础上聚类得到的结果更好。