多视图子空间聚类集成方法研究及分布式实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:nishi1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实社会中,许多纷繁复杂的数据都是有价值的,人们总是希望能够从中获取有价值的信息。而且随着云计算、大数据等技术的深入发展,数据扮演了越来越重要的角色。面对看似杂乱的数据,通过聚类分析可以有效的将数据划分为若干个类别,每一个类别可能真实的反映了原数据中一种类型的对象。聚类分析是机器学习领域一种重要的无监督学习方法,在数据标签未知的情况下,将数据分类,每一个类别称为一个簇。随着聚类技术应用范围的扩展,出现了针对多视图数据聚类的需求。多视图聚类成为聚类分析的一个分支,受到许多研究者的关注。多视图数据是一种有多个侧面、多个视角的数据集,例如,不同的图像特征可以作为图像数据不同视图,不同传感器可以获得同一数据源的不同视角数据。多视图聚类考虑视图间的差异性和互补性,最终获得一致性划分。子空间聚类是解决高维聚类的一种方法,传统子空间聚类可以分为硬子空间聚类和软子空间聚类。在硬子空间聚类中,每个簇对应原数据集的一个属性子集;在软子空间聚类中,每个簇对应一个属性加权后的数据集。本文以软子空间聚类算法思想为基础,提出了一种基于局部自适应属性加权的多视图软子空间聚类算法。该算法是对已有LAC软子空间聚类算法的改进,引入了新的视图权重向量,同时考虑到视图属性的差异性,为每个视图引入了一个平衡因子,克服了高维聚类中的维度灾难。该算法具有时间复杂度低、收敛速度快的优点。实验结果表明,本文提出的算法比其他多视图聚类算法有更好的聚类质量。聚类集成是一种有效提高聚类鲁棒性、稳定性和聚类精度的方法。本文将聚类集成应用于多视图聚类中,同时使用单视图聚类算法和多视图聚类算法产生差异性的聚类分量,使用基于链接的聚类集成方法进行集成,提出了一种改进的多视图聚类集成算法。实验结果表明,该算法要优于其它对比算法。目前,大规模数据集越来越普遍,聚类算法的大数据处理能力也成为了衡量聚类算法性能的指标之一。文本基于大数据处理平台Spark,实现了分布式多视图软子空间聚类算法和分布式多视图聚类集成算法。并在Spark集群上进行实验,证明了分布式算法可以并行的对大规模数据进行处理,提高了聚类的效率,可以对Gb级的多视图数据进行处理。
其他文献
随着经济的发展和社会信息化程度的提高,人们的生活质量和工作效率也越来越高,消费者对企业的服务质量也提出了越来越高的要求。企业为了争夺客户资源,必须准确把握住消费者的需
软件的可信主要体现在其行为的可信上,许多专家和学者越来越多地通过对软件行为的监测、信任关系的评价和异常行为的控制,来保证计算机系统能够安全的运行。由于软件行为可信
实际应用中,子空间聚类方法可以从高维数据中寻找一个低维表示,用少量的数据就能去描述整个数据空间。这在很大程度上提升了高维数据处理的效率。目前已存在不同形式的子空间
随着智能终端设备的普及与互联网技术的飞速发展,图像和视频作为传递信息的媒介,越来越多地受到人们的欢迎。随之而来的是,人们对海量图像进行处理的需求越来越迫切。如何利
由于目前传感器网络的异构性,他们的通信方式,数据存储和处理方式,类型都不同,因此各个传感器网络都是一个个孤立的信息岛,他们不能很好的互通和互操作。我们期望可以通过Int
本系统的研究是江西省教育厅项目“基于Web的江西地区水稻生产智能决策支持系统的研究与实现”的一部分。本课题研究是以江西省水稻生产为对象,纵合了水稻栽培、农业生态等各
随着现代信息技术的发展,机器人技术得到了突飞猛进的进步,在科学探测、救险救灾、军事领域、工业制造等领域中得到了广泛的应用,与此同时,人们生活水平也在不断提高,机器人
二维受限编码无处不在,在磁存储、光存储以及数字记录中都要用到受限编码。二元序列受限编码中最为常见的是所谓RLL ( d ,k )序列,即相邻两个1之间间隔至少有d个0最多有k个0。
物联网是一门新兴技术,它以现有的互联网为基础把各类实体通过传感器联系起来从而形成一个庞大网络。它的飞速发展一方面使人们的生活和生存方式发生巨大改变,另一方面不断推
随着多媒体技术得蓬勃发展,视频信息大量地涌现,传统的数据处理方式已经无法满足需求,如何在海量的数据中快速地检索出所需要的资料就显得至关重要。为了使人们能够更加方便