基于深度学习的多视角表达学习技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:heidaruanjiande1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、物联网等技术的飞速发展,在社会生活的各个领域,涌现出海量的多视角数据。多视角数据指的是同一对象从不同途径或不同层面获得的特征数据,其呈现出多态性、多源性、多描述性和高维异构性等特点。例如自动驾驶中,车辆通过摄像头、激光雷达等多个传感器收集到的多视角数据感知周围环境。多视角学习方法利用了视角之间信息的互补性,对多视角信息进行多层面的处理,获得对事物的全面理解,这是单视角方法无法比拟的。由于多视角数据往往比单视角数据具有更高的维数,基于多视角数据的学习任务更容易受到“维数灾难”的影响。因此,对多视角数据进行维数约简、提取高层表达成为多视角学习中一个非常重要的步骤。近年来,由于深度神经网络模型在众多表达学习相关的问题上都取得了瞩目的成绩,学者们也将其应用于多视角学习领域,从而产生了大量多视角深度学习相关的研究。然而现有的研究工作中还存在下列问题需要进一步解决:1)如何捕获多视角数据之中的一致性和互补性概念。由于多视角数据的不同视角间既具有内在联系又存在差异,因此在学习的过程中需要最大化多个视角之间的一致性,同时保留视角间相互补充的信息,才能全面而准确地描述数据;2)如何解决视角缺失问题。在现实环境中由于数据收集困难、高额成本或设备故障等,使得收集到的多视角数据中的部分视角出现缺失。多视角数据的缺失使得对由多视角所刻画的对象进行深度分析与理解变得更加困难;3)在具体应用中,如何利用多视角数据来提升传统的基于单视角数据的方法的性能。本文围绕上述三个问题进行深入研究,提出了多种新颖的多视角深度表达学习算法,概括如下:1)基于深度矩阵分解的多视角概念学习。现有的基于深度矩阵分解的多视角学习方法难以捕获多视角数据中的一致性和互补性概念。本文提出了一种新的深度多视角概念学习框架,通过多层分解数据矩阵,最终在最高层学习了蕴含一致性和互补性概念的语义表达。接着,本文设计了基于块坐标下降的优化算法来求解相关的优化问题。最后,通过实验证明,本文所提算法显著提升了现有多视角浅层算法和深度算法的性能。2)基于生成对抗网络的不完整多视角数据聚类。现有针对视角缺失问题的多视角深度学习方法至少存在以下一项的缺陷:(1)忽略了缺失数据中的语义信息;(2)只能适用于视角数为2的场景。为此,本文提出了一个对抗不完整多视角聚类框架来学习不完整多视角数据的共同表达,并藉此重构原始数据并推测缺失数据。该框架将元素级重构损失和对抗损失相结合来衡量重构的效果,这两个损失分别捕获了数据的总体结构和深层语义信息。最后通过实验证明,本文所提算法显著提升了现有不完整多视角聚类算法的性能。3)基于用户多视角偏好的个性化推荐。个性化推荐系统旨在通过用户的历史数据,找到用户潜在喜欢的商品。然而,现有推荐算法关注于捕获用户评论数据中体现的偏好,而忽略了商品图像中蕴含的用户视觉偏好。本文提出了一种基于用户多视角偏好的深度推荐方法来捕获用户和商品的多视角(文本及视觉)匹配信息。本文在用户历史评论和商品收到的评论中提取文本匹配信息;同时构建用户视觉偏好表达,并将其与商品视觉表达进行匹配,得到视觉匹配信息。接着,本文使用多视角匹配信息来判断用户对商品的潜在喜欢程度,并据此生成推荐。最后,通过餐馆推荐和商品推荐实验证明了,提取用户的多视角偏好进行推荐,可以显著提升基于用户单视角偏好的推荐算法的性能。4)基于社会媒体多视角数据的图像检索。随着社交媒体的火热发展,越来越多的用户在互联网上传、分享他们的图像以及标签,促使产生了大量的带用户标签的图像。然而,用户标签数据中存在噪音、语义模糊以及语义不完整问题。本文提出一个新的基于社会媒体多视角数据的图像检索框架,借助于社会媒体上用户提供的文本标签中的语义信息,学习图像哈希函数。该框架有两个优点:(1)可以获得大量的弱标注训练数据(用户标注的文本标签)来训练深度哈希模型;(2)相比于手工标记数据,用户标注的标签往往蕴含了更丰富的语义。不同于先前的无监督或有监督哈希算法,本文所提的弱监督深度哈希框架包含了弱监督预训练,以及监督精调两个步骤:第一步从图像附属的标签中学习一个语义向量,接着用它来指导哈希网络的预训练;第二步使用任何基于深度学习的监督哈希算法精调哈希网络。最后,通过实验证明,本文所提算法可以有效提升现有监督哈希算法的性能。文章最后总结了本文工作,并展望了多视角深度学习技术未来可研究的方向。
其他文献
视觉信息是大数据时代的主要数字信息资源,图像和视频是人类获取视觉信息的主要来源。人眼视觉系统是所有视觉信息的最终接收端,其本身就是一个复杂、高效的信息感知处理系统。因此,如何从图像和视频数据中迅速而准确地获得符合人眼视觉感知的信息成为研究的难点与热点。即以人眼视觉感知要求为准绳,研究如何有效提升计算机处理视觉信息和评价图像和视频质量的能力。总结起来,面向人眼视觉感知特性的图像质量评价可以看作大脑通
新辅助治疗(neoadjuvant therapy,NAT)后进行全直肠系膜切除(total mesorectal excision,TME)手术是局部进展期直肠癌(locally advanced rectal cancer,LARC)患者的标准治疗方案。在接受了NAT后,大约有50%至60%的LARC患者实现了肿瘤分期降低且有大约20%的患者能够达到病理学完全缓解,随后进行的TME手术能够有效
拓扑性质是复杂网络不依赖于节点的具体位置和边的具体形态就能表现出来的性质,其相应的结构叫做网络的拓扑结构。任何复杂系统都可以抽象成为由相互作用的个体组成的网络,因而网络无处不在,遍及自然界和人类社会。复杂网络的拓扑结构是人们理解网络本身的特性、网络中节点的行为以及节点之间的相互影响等的基础,也是很多领域如复杂网络的统计特性、节点特征提取、节点分类/聚类等的研究基础。对于物理学家而言,研究复杂网络的
第三代合作伙伴计划(third Generation Partnership Project,3GPP)成立于1998年,从最初的通用移动通信系统网络,到长期演进(Long Term Evolution,LTE)网络、LTE网络的后续演进(LTE-Advanced,LTE-A)网络,再到当前主流发展的第五代移动通信技术(fifth Generation,5G)网络,3GPP已成长为全球最大的通信标
流形优化在应用数学、统计学、工程、机器学习等领域有着广泛的应用.利用流形的拓扑结构和几何性质,可以将线性空间上的约束优化问题看做流形上的无约束优化问题;通过引入适当的黎曼度量,也可以将线性空间上的非凸优化问题转化为流形上的凸优化问题.许多实际应用中数据的自然结构常常建模为约束优化问题,其约束是黎曼流形.为此,人们一方面研究子流形的拼挤性质以简化数据的建模结构.另一方面研究黎曼流形上的优化理论继而构
人们对于世界的认知往往是通过二维以及三维图像。当下,人们对图像信息质量的要求越来越高,但是由于一些客观因素比如遮挡,反光,暗环境等条件,设备难免会采集到低质量的图像图形信息。这些低质量的图像一方面对人类视觉系统不友好,另一方面也不利于计算机视觉的下游任务,诸如图像分类,图像分割,目标检测等。所以,对低质量的图像图形信息进行修复是十分有必要且有意义的工作。类似的,三维图形也可能由于扫描角度限制等问题
大数据时代需要存储和处理的数据量呈现爆发式增长,而传统基于浮栅结构的存储器和基于冯.诺依曼构架的计算器已经达到技术瓶颈,发展逐渐变缓,因此寻找新的存储器件取代现有的浮栅式存储器以及发展新的计算系统已经成为学术领域和工业领域关注的重点。忆阻器尤其是阻变忆阻器因其速度快、能耗小、集成度密高、保持时间长以及能够实现对神经突触功能模拟等优点,被认为是下一代存储器和类脑计算网络最有力的竞争者。本文以基于Hf
微波光子学技术可用于实现微波信号产生、传输、处理、控制、变频等功能,是下一代无线通信、雷达探测、卫星通信、深空探测、卫星有效载荷以及电子战等领域不可或缺的重要模块;其可广泛用于高频微波信号产生、光纤色散补偿、镜像抑制、多普勒频移(Doppler Frequency Shift,DFS)测量等技术。而随着电子系统业务量的增加,信息传输速率的要求也越来越高,且现在系统越来越向高性能、一体化、多频段信号
海杂波是对海雷达照射海面接收到的后向散射回波,基于匹配统计模型的海杂波特性精确估计理论是不同对海雷达探测工作中实现有效目标检测及跟踪过程的关键基础。在高分辨率、低擦地角的对海雷达工作场景中,利用纹理分量服从不同概率分布的各类复合高斯模型可以有效地描述海杂波回波的统计特性,其中包括K分布模型、广义Pareto分布模型(Generalized Pareto Distribution Model,GPD
为了便于系统分析与综合,人们通常需要对物理系统进行一定层次的简化及抽象,并在此基础上建立相应的数学模型。离散事件系统是人们对异步发生的离散驱动的物理系统的一种抽象。随着信息化水平的不断提高,特别是数字计算机控制的制造技术的不断发展,离散事件系统大量涌现,如通讯网络、柔性制造系统、物流管理系统以及火车和航空调度系统等。这些系统都是典型的离散事件系统,这些系统中事件的发生都具以下共同特征:异步性、顺序