论文部分内容阅读
在现实社会中,许多纷繁复杂的数据都是有价值的,人们总是希望能够从中获取有价值的信息。而且随着云计算、大数据等技术的深入发展,数据扮演了越来越重要的角色。面对看似杂乱的数据,通过聚类分析可以有效的将数据划分为若干个类别,每一个类别可能真实的反映了原数据中一种类型的对象。聚类分析是机器学习领域一种重要的无监督学习方法,在数据标签未知的情况下,将数据分类,每一个类别称为一个簇。随着聚类技术应用范围的扩展,出现了针对多视图数据聚类的需求。多视图聚类成为聚类分析的一个分支,受到许多研究者的关注。多视图数据是一种有多个侧面、多个视角的数据集,例如,不同的图像特征可以作为图像数据不同视图,不同传感器可以获得同一数据源的不同视角数据。多视图聚类考虑视图间的差异性和互补性,最终获得一致性划分。子空间聚类是解决高维聚类的一种方法,传统子空间聚类可以分为硬子空间聚类和软子空间聚类。在硬子空间聚类中,每个簇对应原数据集的一个属性子集;在软子空间聚类中,每个簇对应一个属性加权后的数据集。本文以软子空间聚类算法思想为基础,提出了一种基于局部自适应属性加权的多视图软子空间聚类算法。该算法是对已有LAC软子空间聚类算法的改进,引入了新的视图权重向量,同时考虑到视图属性的差异性,为每个视图引入了一个平衡因子,克服了高维聚类中的维度灾难。该算法具有时间复杂度低、收敛速度快的优点。实验结果表明,本文提出的算法比其他多视图聚类算法有更好的聚类质量。聚类集成是一种有效提高聚类鲁棒性、稳定性和聚类精度的方法。本文将聚类集成应用于多视图聚类中,同时使用单视图聚类算法和多视图聚类算法产生差异性的聚类分量,使用基于链接的聚类集成方法进行集成,提出了一种改进的多视图聚类集成算法。实验结果表明,该算法要优于其它对比算法。目前,大规模数据集越来越普遍,聚类算法的大数据处理能力也成为了衡量聚类算法性能的指标之一。文本基于大数据处理平台Spark,实现了分布式多视图软子空间聚类算法和分布式多视图聚类集成算法。并在Spark集群上进行实验,证明了分布式算法可以并行的对大规模数据进行处理,提高了聚类的效率,可以对Gb级的多视图数据进行处理。