论文部分内容阅读
随着社会智能化、数字化进程的快速发展,视觉数据(如图像、视频等)作为一种简单直接、内容丰富的信息呈现方式,已广泛渗入到现代生活的方方面面。人们在创造、分享及传播视觉数据的同时,更关注于视觉数据所传递的丰富语义信息。因此,如何快速高效地分析视觉数据所包含的语义信息已成为计算机视觉领域亟待解决的问题。目前,诸如图像/视频语义标签、视觉关系分析、内容描述等视觉语义分析与生成工作已获得了研究人员的广泛关注。视觉内容描述作为视觉语义分析与生成的一种高级形式,其目标在于显式地将视觉信息转换为自然语言描述,以更有利于传递清晰明确的语义信息。针对视觉内容描述这一研究问题,本文首先从基础的视觉特征表示出发,研究双向时序特征对于视频数据建模的有效性。其次,分析并提出了一种自适应注意力机制以区别“视觉相关单词”和“功能性单词”,从而有效从视觉内容和语言学知识中获取信息并生成描述。然后,从扩充视频描述的丰富性和完善性层面出发,深入研究了多视角视频描述问题。最后,充分考虑视觉内容和语义协调性,通过对不完善的描述进行补全以实现视觉和语义信息的联合理解及分析。具体而言,本学位论文的研究内容主要包括以下几点:(1)本论文提出了一种带注意力的双向长短时记忆模型以描述视频内容。该方法采用双向长短时记忆模型对视频进行时序编码,综合前向及后向内容中的信息增强其特征表示能力。该方法同时考虑视频的整体特征及局部片段重要性,设计了一种时序注意力机制将重要的视频片段信息融合到双向时序编码及描述生成过程中,从而有效提升视觉内容和语言间的局部关联性。(2)本论文提出了一种自适应注意力机制,以在描述生成阶段通过“视觉门控单元”自适应地选择利用视觉信息和语言学知识。在视觉内容描述中,实词通常与视觉内容相关,而功能性单词通常与语法及语义等语言学知识更相关。传统视觉注意力机制在语言生成阶段忽略了上述差别,即所有词的生成均从图像中获取信息。基于此,本文首先将已生成单词的隐藏层状态映射到语义嵌入空间以得到当前语言学知识集。然后,设计了一个“视觉门控单元”以自适应地从视觉内容和语言学知识中获取信息并用于单词生成,从而有效地提升了单词和描述生成准确性。(3)本论文提出了一种新颖的多视角视频描述任务。该任务旨在从多个视角更充分、完善地感知及描述视频内容。为此,本论文首先收集并标注了一个用于多视角视频描述研究的Vid OR-MPVC数据集,其包含3,136个视频、41,031条描述。然后,提出了一种视角感知的描述生成方法,该方法利用循环神经网络迭代地挖掘视频所包含的视角,并从各视角生成对视频整体内容描述。最后,基于当前评测指标设计了一种适用于多视角描述生成评价的评测指标,该指标从语义相关性、视角完善性及视角冗余性三个方面对生成的多视角描述进行综合评估。(4)本论文从视觉内容理解的准确性和语义协调性出发,提出了视觉描述补全的视觉-语言理解任务。不同于将图像“翻译”为自然语言的传统视觉内容描述,该任务需要同时理解视觉内容和待补全描述的语法语义,并采用合适的文本片段填补描述中的缺失部分。针对该任务联合理解视觉内容和语义这一特性,本文首先在传统视觉内容描述数据集的基础上,移除描述中视觉相关的文本片段,构建了一个视觉内容描述补全数据集以支撑该任务的研究。然后,提出一种基于自适应动态注意力机制的多模态融合网络以同时感知图像内容及理解语言信息,从而实现图像和文本的跨模态感知、有效生成缺失的文本内容。最后,本文简要总结了以上研究内容,并对研究工作的拓展和深入进行了进一步展望,提出了可能的研究方向和思路。