基于公共表示学习的不完备多视图聚类

来源 :西安邮电大学 | 被引量 : 0次 | 上传用户:liupengo0308
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集手段的不断增多,真实数据往往由多个模态组成或来自多个来源,这样的数据称为多视图数据。对多视图数据进行机器学习任务称为多视图学习。如今,多视图聚类作为多视图学习的一个热门领域已经引起了研究者广泛的关注,它提供了一种将多视图数据划分成簇的方式。目前,大多数多视图聚类算法都假设所有的视图是完备的。但是,在实际应用中,每个视图数据可能存在样本的缺失,从而导致不完备的多视图数据。现有的多视图聚类算法无法直接应用到不完备的多视图数据上,对这样的数据进行聚类称为不完备多视图聚类。针对不完备多视图聚类问题,本文的研究思路为:为所有的视图学习一个公共表示用于聚类。在学习公共表示的时候,引入误差矩阵对缺失的实例进行建模。此外,学习数据的亲和度矩阵以保留数据的全局结构从而提高学习的公共表示的可辨识性和紧凑性。最后,引入自适应权重学习用来为每个视图学习一个较为合适的权重以衡量视图的重要性,同时提高公共表示的可辨识性,进而提高聚类性能。本文以不完备多视图聚类为研究对象,取得了如下研究成果:(1)提出了同时学习公共表示和亲和度矩阵的不完备多视图聚类方法。该方法为所有的视图学习一个潜在的公共表示用于聚类。同时利用非缺失视图的可用信息和缺失视图的潜在语义信息来进行公共表示的学习。此外,本文引入了误差矩阵用来对缺失的实例进行建模,通过恢复缺失的视图,所有不完备的视图自然地对齐以学习视图的潜在公共表示。为了保留数据的全局结构,本文提出在学习公共表示的同时学习数据的亲和度矩阵。同时学习公共表示和亲和度矩阵可以引导学习更加具有辨识力和更紧凑的公共表示,从而提高聚类性能。最后,在四个真实数据集上进行了对比实验,实验结果验证了算法的有效性。(2)提出了自适应加权不完备多视图聚类方法。该方法考虑到每个视图由于可用实例数目和特征维度的不同使得每个视图的可用判别信息存在较大的差异,从而导致每个视图具有不同的重要性的情况。由于先验知识的不足,无法提前给定每个视图合适的权重来衡量视图的重要性。为了衡量视图的重要性以及提高聚类性能,本文在公共表示学习和亲和度学习模型中加入了自适应权重学习。通过为每个视图进行权重的学习可以得到每个视图最合理的权重,同时为每个视图分配合适的权重有利于学习更加具有辨识力的公共表示。最后,在五个真实数据集上进行实验,实验结果验证了算法的有效性。
其他文献
携能双向中继网络(Two-Way Relaying Network,TWRN)利用能量收集(Energy Harvesting,EH)技术,能够在完成高可靠性通信的同时延长中继节点的工作寿命。已有针对携能TWRN中系统中断性能的研究大多基于理想硬件假设,即不考虑各类损伤(如高功率放大非线性、射频电路噪声等)对收发机的影响。然而,在实际的通信网络中,收发机不可避免地会遭受着诸多因素的影响。尽管已相继
人脑在人类情感的产生过程中起到了至关重要的作用,基于脑电(Electroencephalogram,EEG)的情绪识别研究日益得到国内外学者的关注。有效挖掘大脑的功能机制为情绪识别提供了新的见解,对系统级视角下理解人脑组织的连接模式以及情绪产生的方式至关重要。认识人脑不同脑区在功能上分工与协同的规律是情绪分析的关键,然而现有的情绪识别研究在这一方面存在两个不足之处:研究者对于大脑的探究多从能量角度
视觉跟踪是计算机视觉领域的一个重要研究方向,在自动驾驶、军事侦察、视频监控、人机交互、无人机等领域都有广泛的应用。视觉跟踪的主要目的是在视频序列中,根据给定的初始目标信息在后续视频序列中预测该目标的位置、尺度、运动状态等信息。近年来,越来越多的研究人员从事跟踪算法的研究,各类跟踪算法在跟踪性能上都不断提升,但在目标遮挡、光照变化、快速运动、目标形变等复杂场景下的跟踪性能仍不够理想,所以,对跟踪算法
大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术通过在基站端布置大量天线,利用信道之间的渐近正交性,可以有效消除用户间干扰,同时给通信系统带来巨大的性能提升,而成为5G的关键技术并被广泛使用。在大规模多用户MIMO(Multi-User MIMO,MU-MIMO)系统中,不正确的用户分组会引起严重的用户间干扰,因此多用户选择对大规模MIMO系统性能至
水是人类生产活动和社会发展中不可缺少的重要资源。但近年来随着城市化和工业化步伐的加快,导致水污染问题日益突出,水质监测已经成为水资源保护和利用的关键问题。我国是传统的农业大国,农业生态环境的优劣与我国的可持续发展战略息息相关,这其中农业生产灌溉用水的安全性更是直接影响农作物品质。我国以全球8%的耕地面积养活全球20%的人口,创造“中国粮奇迹”根本原因之一是我国有40%的耕地类型为灌溉农田和建立在水
验证码的作用是区分人与机器,在互联网时代早期图像验证码具有非常好的效果。近年来,软件技术飞速发展,特别是深度学习方面的技术突破和硬件突破将AI技术引入了全新的时代。AI技术在图像识别和处理的优秀表现,给图像验证码的核心功能带来了严重挑战。相较于传统基于OCR技术的文字识别破解验证码,基于深度学习技术的破解系统破解的准确率更高、效果更好。于是各式新颖的验证码系统层出不穷,但这些新兴验证码操作逻辑不够
随着大数据时代的来临,需要分析处理的数据程指数型增长。降维技术作为数据挖掘预处理技术的重要组成部分,它能有效地减少学习算法的计算复杂度,从而使得传统的学习算法处理大规模数据成为可能。而特征选择作为降维技术的一种,因为其降维后的数据具有可读性高以及不改变数据结构的特点,被广泛应用于各个领域。该方法的步骤主要分为两个部分,生成特征聚类结果和聚类后的特征选择。但是在基于聚类的特征选择算法中依旧存在以下四
随着计算机技术的飞速发展以及人们对智能化设备需求的提高,人体行为识别已经成为计算机视觉领域热门研究方向之一,其广泛应用于公共安防、人机交互、虚拟现实、体育运动和医疗健康等领域,具有极高的理论研究价值。早期的研究工作主要针对于RGB视频图像,由于易受复杂背景、光照强度的影响,很难达到理想效果。但随着深度传感器技术的发展,高精度获取三维骨架关节点信息变得方便可行。对比传统RGB视频图像数据,骨架姿势信
第五代移动通信系统的迅速发展为构建天空、海洋、陆地一体的战略网络蓝图带来了契机与动力,将具备高速率、低延时、大容量等特点的5G技术与卫星移动通信的融合已成为大势所趋。`星座组网中低轨卫星星座以其通信距离短,波束范围广等优势在未来天地一体化通信系统组网蓝图当中占据着至关重要的地位。在5G NR(New Radio)的相关技术中,随机接入技术是实现用户上行初始同步,有效建立星地数据传输链路的关键前提。
深度学习(Deep Learning)技术的快速发展,开启了未知的机器智能时代,也正逐渐并深刻地影响和改变着我们的日常生活。然而,深度学习技术需要依赖大量的带有标签的样本数据才能发挥其巨大的作用。实际应用中,获取大量带有标注的数据需要花费巨大的代价,且某些领域并不存在巨大的数据去适应深度学习模型进行训练。当训练数据量较少时,往往会造成模型过拟合。因此,小样本学习(Few-shot learning