论文部分内容阅读
随着互联网的飞速发展和人类接触信息量的日渐爆炸,近年来,基于对互联网海量数据分析的技术日益被工业界和学术界重视。立足于互联网数据的识别、分析、分类、聚类、关联关系挖掘等任务日渐成为互联网信息活动的中的重要部分。同时,互联网数据由于其的稀疏性、复杂性、弱关联性,对相关互联网信息发掘技术和底层算法提出了严峻的要求,以往的众多传统数据分析方法不能满足需求;特别是对于一些基础的数据分析方法(分类、聚类、关联分析等)。同时,互联网数据存在多视图特性,即单一数据存在对其多种解释。对于该类型数据的处理方式和模型应运而生。而本文结合非负矩阵分解方法、遗传算法竞争模型和神经网络方法,并且将这种技术应用于常规的多视图数据聚类当中去,提出一种基于多视图聚类的新型聚类算法。首先,本文用一到两个章节介绍了本文的基础知识和前期知识。包含但不仅限于多视图聚类方法在当前学术界和工业界的已有研究。聚类算法的基本概念和一些传统聚类算法的介绍。该部分通过两个章节详细介绍本文的基础和前期工作,明确本文的写作意图和文章规划。其次,本文分别介绍了多视图聚类和非负矩阵分解的知识。多视图聚类是一种面向多视图数据的聚类任务模型,在面向多视图数据处理时候能够展现较高的性能。非负矩阵分解是一种矩阵分解技术,通过非负矩阵分解,能够对相关矩阵开展特征降维、特征提取、数据压缩等工作。最后,是本文的重点,结合多视图聚类分解方法、非负矩阵分解方法、视图合成方法,提出一种基于多视图聚类的新型聚类算法。在本部分中,本文使用非负矩阵对子视图的图像特征进行提取,同时使用矩阵方法、竞争算法、神经网络方法对目标多视图特征进行特征合成和归一化。通过以上系统的讨论和研究,同时进行充分的实验,用两种不同类型的数据集对提出的三种模型进行了横向和纵向对比,可以证明本文提出的基于非负矩阵分解的集成聚类方法(MNMF)、基于竞争遗传的多视图集成聚类方法(CMC)和基于神经网络集成的多视图聚类方法(NMC)在多种性能指标上优于传统聚类算法。