论文部分内容阅读
作为数据划分的方法之一,聚类分析在处理高维甚至大规模的数据方面具有强大的生命力。聚类能发现有价值的数据分布和数据模式,目前广泛应用于社会多个领域。由于数据集属性的多样性,以及数据内部结构的多样性,任何单一的聚类算法都不能适应于所有类型的数据。受到分类集成技术成功应用的启发,聚类集成技术成为研究热点。当前的研究表明,聚类集成可以有效地提高聚类算法的性能,弥补单一算法的不足。虽然目前国内外产生了许多的聚类集成算法,不乏成功的集成算法,但是从这个领域的应用上来说,这方面的研究工作还处于发展阶段,需要深入研究。本文在前人研究的基础上,主要研究聚类成员共识函数的设计问题,旨在推进聚类集成理论与应用的研究工作,取得了一些富有价值的成果。
本篇论文探讨了对于一个指标,其指标内所有值的取值在一个较小区间范围内,如何衡量指标内单个值的重要性,本文提出了基于层次分析法的权重求解新度量。文中定义了自适应判断矩阵的概念并利用传统方法求解得到自适应权重,也证明了自适应的判断矩阵满足一致性检验。构造出的判断矩阵有效避免了基于原有层次分析法指标构造判断矩阵的主观性,并将其求解方法应用于共识函数设计。此外,本文针对目前大多将聚类成员同等看待即简单投票的方法获得最终的聚类结果,没有考虑聚类成员的重要性程度,本文提出基于层次分析法的加权聚类集成。利用基于层次分析法的新度量构造自适应判断矩阵,求出不同聚类成员的自适应权重,最后构造一致隶属度矩阵基于投票得出最终聚类结果。
本文的内容如下:
第一、介绍了聚类集成的研究背景、国内外的研究现状。
第二、简单介绍了聚类的概念、当前已有的聚类算法以及评价聚类质量的指标;另外,分析聚类集成产生的原因、描述聚类集员之间差异性的度量以及介绍了主要的聚类集成算法。
第三、详细给出了基于层次分析法的自适应权值生成方法,论文首先介绍了层次分析理论,包括层次分析框架、不同的标度和具体求各因素重要性排序的方法。其次,通过一个问题,构造自适应标度,给出相关定理、性质并检验其满足一致性。
第四、提出基于层次分析法的加权聚类集成,论文首先介绍了基于加权聚类集成的研究现状,其次重点介绍了基于层次分析法的加权聚类集成算法的思想与步骤,最后从验证共识函数设计的有效性、集成规模对算法的影响以及与其他的集成算法比较三个角度对算法进行验证,以UCI数据库中的真实数据集进行实验,验证了基于层次分析法的加权聚类集成算法是一个聚类正确率较高,稳定性较好的聚类集成算法。