视觉数据的智能语义生成方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lhasrq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会智能化、数字化进程的快速发展,视觉数据(如图像、视频等)作为一种简单直接、内容丰富的信息呈现方式,已广泛渗入到现代生活的方方面面。人们在创造、分享及传播视觉数据的同时,更关注于视觉数据所传递的丰富语义信息。因此,如何快速高效地分析视觉数据所包含的语义信息已成为计算机视觉领域亟待解决的问题。目前,诸如图像/视频语义标签、视觉关系分析、内容描述等视觉语义分析与生成工作已获得了研究人员的广泛关注。视觉内容描述作为视觉语义分析与生成的一种高级形式,其目标在于显式地将视觉信息转换为自然语言描述,以更有利于传递清晰明确的语义信息。针对视觉内容描述这一研究问题,本文首先从基础的视觉特征表示出发,研究双向时序特征对于视频数据建模的有效性。其次,分析并提出了一种自适应注意力机制以区别“视觉相关单词”和“功能性单词”,从而有效从视觉内容和语言学知识中获取信息并生成描述。然后,从扩充视频描述的丰富性和完善性层面出发,深入研究了多视角视频描述问题。最后,充分考虑视觉内容和语义协调性,通过对不完善的描述进行补全以实现视觉和语义信息的联合理解及分析。具体而言,本学位论文的研究内容主要包括以下几点:(1)本论文提出了一种带注意力的双向长短时记忆模型以描述视频内容。该方法采用双向长短时记忆模型对视频进行时序编码,综合前向及后向内容中的信息增强其特征表示能力。该方法同时考虑视频的整体特征及局部片段重要性,设计了一种时序注意力机制将重要的视频片段信息融合到双向时序编码及描述生成过程中,从而有效提升视觉内容和语言间的局部关联性。(2)本论文提出了一种自适应注意力机制,以在描述生成阶段通过“视觉门控单元”自适应地选择利用视觉信息和语言学知识。在视觉内容描述中,实词通常与视觉内容相关,而功能性单词通常与语法及语义等语言学知识更相关。传统视觉注意力机制在语言生成阶段忽略了上述差别,即所有词的生成均从图像中获取信息。基于此,本文首先将已生成单词的隐藏层状态映射到语义嵌入空间以得到当前语言学知识集。然后,设计了一个“视觉门控单元”以自适应地从视觉内容和语言学知识中获取信息并用于单词生成,从而有效地提升了单词和描述生成准确性。(3)本论文提出了一种新颖的多视角视频描述任务。该任务旨在从多个视角更充分、完善地感知及描述视频内容。为此,本论文首先收集并标注了一个用于多视角视频描述研究的Vid OR-MPVC数据集,其包含3,136个视频、41,031条描述。然后,提出了一种视角感知的描述生成方法,该方法利用循环神经网络迭代地挖掘视频所包含的视角,并从各视角生成对视频整体内容描述。最后,基于当前评测指标设计了一种适用于多视角描述生成评价的评测指标,该指标从语义相关性、视角完善性及视角冗余性三个方面对生成的多视角描述进行综合评估。(4)本论文从视觉内容理解的准确性和语义协调性出发,提出了视觉描述补全的视觉-语言理解任务。不同于将图像“翻译”为自然语言的传统视觉内容描述,该任务需要同时理解视觉内容和待补全描述的语法语义,并采用合适的文本片段填补描述中的缺失部分。针对该任务联合理解视觉内容和语义这一特性,本文首先在传统视觉内容描述数据集的基础上,移除描述中视觉相关的文本片段,构建了一个视觉内容描述补全数据集以支撑该任务的研究。然后,提出一种基于自适应动态注意力机制的多模态融合网络以同时感知图像内容及理解语言信息,从而实现图像和文本的跨模态感知、有效生成缺失的文本内容。最后,本文简要总结了以上研究内容,并对研究工作的拓展和深入进行了进一步展望,提出了可能的研究方向和思路。
其他文献
自2014年,“11超日债”违约事件的发生开始,我国债券市场的“刚性兑付”规则被打破。近两年,债券违约情况出现激增,2018年有165只债券发生违约,涉及金额1534.25亿元,同2017年上涨320.86%。2019年延续此趋势,累计有231只债券发生违约,涉及金额约2246.95亿元。通过对2019年新增违约主体的统计发现,民营上市公司债券违约情况多发。并且在这些发生违约的主体中,出现投资战略
为进一步应对气候变暖、缓解碳排放量和环境污染压力,满足有限区域范围内陆上或海上持续能源动力供应需求,拓展核能动力在偏远区域有限电力生产、海洋核动力平台、核动力破冰
视网膜作为人眼成像的关键部位,由色素上皮层和视网膜感觉层组成,紧贴在脉络膜内面。由于许多眼底疾病所引起的病变通常会表现在眼底血管之上,所以在临床医学上,获取视网膜图像通常是诊断眼底疾病和其他系统的疾病的重要环节之一。由于眼底照相机拍摄照片的角度有限,单幅图像所得的区域较小,难以获取有效的图像信息,因此,在医学研究领域或者临床诊断医学上,需要将多幅不同角度拍摄的视网膜图像拼接在一起,以此获得较为完整
随着气候变化和城市化进程的加快,短历时暴雨引发的城市内涝、小流域山洪灾害等问题亟待解决,严重威胁着人民的生命财产安全和经济社会发展。科学、合理、精确地编制暴雨公式
为了解决神经网络训练时的巨大资源消耗,MLaa S(机器学习即服务)正如Saa S(软件即服务),Paa S(平台即服务)和Iaa S(基础设施即服务)一样,已成为一种发展趋势。但伴随而来的是第三方提供服务的不可信问题:机器学习服务提供商可能由于遭受黑客攻击或受额外利益的诱惑而在其服务模型中部署木马后门,发布附带恶意功能的神经网络模型,即神经网络木马。当对这些被感染的模型输入带有特殊标记的样本时,
物联网的快速发展,给生产生活带来巨大便利。然而物联网设备受限于自身的计算能力、存储能力、网络带宽等因素,加上与之相配套的安全技术未能与其发展速度相适应,使得物联网中存在着大量易被攻击的不安全设备,存在着严重的安全隐患,最直观的体现便是物联网僵尸网络的泛滥,因此本文对物联网僵尸网络流量的检测进行了深入的研究。本文以网络流量分析和神经网络相关技术为基础,针对物联网僵尸网络检测中的数据处理、特征选择以及
随着深度学习技术的蓬勃发展,人工智能相关应用越来越多的出现在日常生活中。其中的代表性技术,如人脸识别,行人识别,车牌识别等,为人类生活创造了极大的便利。而在这些应用领域,目标检测算法扮演着重要角色。尽管现有的算法在类别较少的任务上达到了很高的精度,但是随着类别数目的增加,其性能会急剧恶化,无法应对自动驾驶、机器人巡检等复杂自然场景下的算法需求。通过对大规模多分类数据集LVIS的深入分析,本文认为数
目的复方绿柳颗粒(LvLiuKeLi,LLKL)由绿萝花(Edgewortahi gardneri(Wall.)Meisn.)、柳茶(Sibiraea angustata)、藏红花(CrocussativusL.(saffron))组成,本研究观察LLKL改善2
随着当前工业化和智能化的发展需求,实际应用中出现大量的多解优化问题,如多解路径规划、多目标投资组合优化等工程与科学领域的问题,这些问题都具有多变量、多峰值、多约束
基于IP传输网络的视频会议系统并不具有传统电信专网所提供的低延时、低抖动、带宽保障的优点,这主要是由于IP网络是基于无连接分组交换设计的,提供的是“尽力而为的”服务,