基于深度学习和柯西—施瓦茨散度的多视图多聚类算法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:donnybaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类,也称为聚类分析,是最基本和最重要的无监督学习范式之一。它旨在根据数据样本间的相似度情况,将样本划分到不同的簇(组),分配到同一个簇中的样本的相似性高,不同簇中的样本的相似性低。传统的聚类算法仅能从给定的数据中找出一个聚类结果。然而,由于数据采集和存储技术的进步,人们所分析的数据更为复杂,其中可能包含不同种类的异构特征。例如,数据集中的特征可能包含不同量纲的特征或采集自多个来源。这些特征的不同组合可能提供数据的不同分析视角,而多聚类算法就旨在从不同视角发现隐藏在数据中的多个有意义的聚类结构,为用户提供更多不同角度的聚类信息。因此,多聚类成为近年来聚类研究的热点和难点,不同的多聚类方法相继出现。传统的多聚类算法模型主要是为单视图数据设计。随着信息技术的发展和大数据时代的到来,越来越多的多视图数据得以产生。同一个样本的数据可以从不同来源获取,从而产生多视图的特征表示。而这些多视图数据很难直接适用于传统的多聚类算法。而目前的多视图多聚类算法存在着以下不足:(1)属于直推式的聚类模型,难以处理增量数据;(2)主要关注控制聚类间的差异性,而忽略了聚类的质量性;(3)无监督学习,存在生成琐碎解的风险。针对上述多聚类研究中存在的问题,本文基于多视图数据,进行多视图多聚类深度学习模型建模,以获取具有质量和差异性的聚类结果,扩展多聚类的研究维度,主要工作如下:1.提出了一种基于深度学习的归纳式多视图多聚类算法(IMVMC,Inductive Multi-view Multiple Clusterings)。IMVMC首先利用深度网络对异构的多视图数据进行编码对齐,把对齐的特征向量进行特征聚合后,将其作为一组深度编码器网络的输入,以归纳的方式生成多个公共聚类子空间,进而得到多个聚类结果。此外,为了控制聚类间的差异性,IMVMC引入冗余控制项,最小化这些子空间之间的冗余。最后,为了提高模型的鲁棒性,避免模型陷入琐碎解,IMVMC进一步引入岭回归正则项来约束模型参数。在常用的真实多视图数据上的实验结果表明,IMVMC相对于其它的多聚类算法,能以归纳式的方式生成具有差异性的多聚类结果,而且还保持了较高的聚类质量。2.提出了一种基于柯西-施瓦茨散度的多视图多聚类算法(MVMC-CS,Multi-view Multiple Clusterings using Cauchy-Schwarz Divergence)。MVMC-CS同样是先利用深度网络对异构的多视图数据进行编码对齐。而在视图聚合的时候,由于不同视图在聚类时的重要性不同,采用加权聚合的方式。这些聚合的特征通过下游的神经网络,以端到端的方式同时得到样本的特征表示和聚类分配向量。除了设置冗余控制项约束聚类的差异性之外,MVMC-CS还引入柯西-施瓦茨散度和自正交正则化项来提升聚类的质量性。与现有的多聚类方法在不同的多视图数据集上的多种评价度量比较结果显示,MVMC-CS不仅能以端到端的方式得到多个聚类结果,而且这些结果还能保持较高的质量和差异性。
其他文献
随着语义网的不断发展,RDF(Resource Description Framework,RDF)数据已被广泛用于各个领域的知识建模与数据重用,导致其数据量呈现出爆炸式的增长。RDF数据所形成的RDF图知识库(简称为RDF图)也从刚开始的仅数百万条数据增长至上亿条数据,其中开放关联数据(Linked Open Data,LOD)截止到目前已拥有超过620亿条链接数据。各领域RDF数据的不断增长,
学位
使用频率高、运动损伤(如摔跤)、疾病(如脑中风)等都可能导致腕关节功能性障碍。腕关节康复训练在促进功能障碍恢复中起着重要作用。AR(Augmented Reality,增强现实)技术是一种借助相关技术把虚拟对象无缝叠加到真实世界中,从而实现对真实世界环境增强补充的技术。将AR技术和腕关节康复相结合,把计算机生成的虚拟指导训练信息叠加到病患腕关节真实训练过程中,让病人清晰、明确地看到自己当前肢体动作
学位
古文字作为人类用符号来记录古代历史、经济、文化、科学技术发展的瑰宝,其对文明历史的传承和知识文化的传播发挥着不可替代的作用。然而古文字一直是冷门领域,相关的研究资料也是非常贫瘠。究其原因主要是其自身的特殊性,比如需要掌握丰富的专业知识和多年的研究经验的学者,同时由于历史发展和保护条件有限,大量古文字载体存在不同程度的损毁。因此古文字的保护研究工作迫在眉睫。古文字识别是古文字学最为核心的研究课题,本
学位
随着经济社会和科学技术的不断发展,社会的交互关系逐渐网络化,如从企业邮件转发网络到全球通讯网络,从城市居民出行网络到全球交通网络。这些网络从抽象、具体,以及微观、宏观等多个层面对现实的复杂系统进行描述,因此通过利用网络科学和计算机科学的理论来挖掘复杂系统中的共性特征和潜在的组织结构,为理解复杂而又抽象的现实世界提供了有效的依据。然而,当今社会经济的不断膨胀引起了网络规模的急剧扩张以及复杂化,给网络
学位
作为自然语言处理领域的一项关键任务,实体关系抽取受到越来越多的关注,其目的是从原始文本中获取结构化知识,得到<头实体、关系、尾实体>形式的三元组。提取的三元组被广泛用于知识图谱、智能搜索、电商推荐、问答系统等领域,有着重要的研究与应用价值。实体关系联合抽取利用实体和关系间紧密的信息交互,同时抽取实体以及实体对之间的关系,很好地缓解了流水线方法所存在的错误传播等问题。中英文由于语言之间的差异性,在实
学位
近年来,随着互联网技术的发展以及信息搜集工具的进步,我们的生活已经被各种各样的数据包围。数据信息已然成为了一种十分重要的资源,对人们有着十分重要的意义。如何从海量的,纷繁复杂的数据中提取有用的信息成为了科学界与产业界共同关注的热点。因此,各式各样的数据挖掘方法被不断地提出。聚类,作为数据挖掘领域地一个重要的技术手段,它可以在无任何先验知识的情况下,通过探究数据之间的内在关系来将一组对象进行划分归类
学位
自然界中的事物以不同的形式相互联系着,这种联系构成了一种复杂的系统。如何从这种复杂系统中寻找出其内在蕴含的信息,揭示系统的运行规律,探究事物发展和联系的本质,已逐渐成为科学家的研究焦点。如果把复杂系统中的事物个体抽象为网络中的节点,把事物个体间的关系抽象为网络的连边,那么就可以把复杂系统抽象为复杂网络。随着对复杂网络研究的不断深入,复杂网络的分析方法已渗透到现实世界的各个领域,被广泛应用于社会、交
学位
不管是传统的机器学习,还是现在的深度学习,事件序列预测任务都始终贯穿了它们的发展历程。具体而言,机器学习模型需要从事件序列(Events Sequence)中提取合适的历史信息,并通过这些历史信息得到未来事件的条件概率分布,从而实现对未来事件的预测。一般而言,深度学习使用循环神经网络(Recurrent Neural Network,RNN),或是带有掩盖机制(Mask)的自注意力(Self-At
学位
目标检测和视觉导航是无人驾驶的关键技术。传统的道线检测依赖于特征提取和检测校正,交通标志识别依赖于色彩分析和图像分割,然而道路场景的剧烈变化导致算法的鲁棒性较差。基于模拟的无人驾驶场景,本文探究深度学习模型LaneNet和YOLOv4,以完成智能车的视觉导航与目标识别。针对不同识别任务,文章采取传统视觉与深度学习结合的方式,保证算法的鲁棒性与实时性。在室内模拟场景中,智能车的无人驾驶系统能够准确实
期刊
钟秉林教授的新版著作《高考改革:理想与现实》,聚焦新高考改革,基于访谈和问卷调查等实证研究方法,对新高考改革进行持续的跟踪评估,为推进新高考提供理论支持,是新高考改革研究的重要成果。该书既肯定新高考的成效,也直面问题,为完善新高考提供改革参考。该书所收录的多篇论文曾对新高考改革的政策调整与实践改进起到实质性推动作用,产生了较大的社会效益和学术影响。
期刊