基于非负矩阵分解的多视图聚类研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zhongxuanshiye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因为没有强大的数据挖掘工具协助人们去理解数据,挖掘潜在的有效信息。海量未被挖掘数据中所潜藏的有效信息催促着数据挖掘技术的诞生。聚类分析是最为有力的数据挖掘工具,它自发地将数据对象聚于多个簇,使同一个簇中的对象之间相似程度越大,使不同簇中的对象具有更大的差异度。在描述一些实际问题的过程中,同一个事物可以从不同的途径、不同的角度或者不同的形式进行描述,多种不同的描述为事物的多个视图,数据为多视图数据。随着信息技术的发展,多视图数据越来越多,且因其包含有更多的信息量,在数据处理中越来越受到关注。虽然已有许多传统的聚类算法,但是针对多视图数据,传统聚类算法无法很好的应用并产生较高质量的聚类结果,多视图聚类应运而生。非负矩阵分解(Nonnegative matrix factorization,NMF)能够有效得将高维数据映射到低维空间,是一种有效的特征提取方法。本文以NMF为基础,结合多视图聚类与聚类集成,提出了两种多视图聚类算法和一种聚类集成算法。基于NMF的潜在特征学习多视图聚类算法,将NMF的优点与相似度矩阵相结合,利用联系两者的一个系数矩阵对多视图进行聚类,且自主学习权重,从而达到更优的聚类效果。基于NMF的潜在特征整合多视图聚类算法设置了一个样本相似度矩阵来表示样本之间的相似度,和一个基相似度矩阵来衡量样本各维度之间的相似性。其关键是在样本相似度矩阵的约束下,通过非负矩阵分解获得样本之间的共有特征;当样本间共用一个基空间时,样本之间的差异被最大化,在基相似度矩阵的约束下,获得样本的互补特征。通过整合这两个潜在的特征,对多视图数据进行聚类,从而达到更好的聚类效果。聚类集成整合一种或多种聚类算法,多次聚类结果的方法。可以有效提高聚类精度、聚类的稳定性和鲁棒性。为了解决通过原始数据集获得的基聚类结果存在一定的信息丢失,使得集成阶段的有效信息减少的问题,提出了一种基于NMF的K-means聚类集成算法。该算法先通过K-means聚类算法获取集成信息,同时从原始数据集获取数据的相关性,将两者结合然后通过非负矩阵分解技术构建共识函数获得最终结果。实验证明了所提出的算法可以有效的获取原始数据潜在更多的信息,约束非负矩阵分解过程从而提高聚类质量。
其他文献
在零售业,营销分析发挥着重要作用,同时,数据仓库因用于存储历史销售数据而得到了广泛应用。然而,随着数据规模的急剧增长,各企业数据管理和营销分析的水平不一且发展极不均
随着网络应用的发展和安全形势的变化,互联网安全需求也随之有了新的变化和发展。爆发式的恶意软件(Malware)增长和传播使得传统的恶意软件检测方法无法及时、有效的分析和处
获取用户手机的信息必须先发送相应的指令到HLR设备,HLR设备的应答报文是由大量英文字母组成的半结构化文件,如何从半结构化文件当中高效准确的抽取可用的信息是论文研究的主要
P2P技术使当今的互联网发生了日新月异的变化,它改变了以服务器为中心的传统网络模式,提供了一种全新的获取资源的方式,得到了广泛应用。然而,P2P应用却带来了网络流量的急剧增长
近年来,随着移动应用软件数目逐渐庞大以及软件构架的日益复杂化,软件测试在确保软件质量方面发挥着重要作用。接口测试作为测试系统组件间接口的一种测试,具有成本小效率高
超分辨率图像重建技术是指从低分辨率图像序列中重建出一幅高分辨率图像,这些图像有噪声、欠采样并且模糊但是相互之间具有互补信息。这项技术不需要改变现有的硬件设备,只通过
近年来,互联网的迅速发展和网络音频数据量的急剧上升使得对网络音频数据的分类处理需求日益复杂。网络多媒体数据的获取与预处理则是各种音频处理应用的共同基础。本文的研究
随着Web Service技术的发展,面向服务架构的思想不断成熟,把SOA架构思想引入到文本信息处理系统是一个很好的尝试。因为SOA架构思想是面向服务的,系统的业务逻辑可以完全以第三
嵌入式分布式软件具有实时性、计算单元分布等特点,传统的串行调试方法和技术难以直接应用于该类软件的调试,如何针对该类软件特点设计和实现有效调试是软件调试中的重要问题。
1988年蔡少棠教授提出了细胞神经网络(Cellular neutral network,简称CNN),这种网络结合了人工神经网络和细胞自动机的优点。CNN是一种局部互联的神经网络变体,整个网络由大规