论文部分内容阅读
近年来,依靠互联网技术的飞速发展和相关软硬件的协同提升,社会已逐渐进入大数据时代,以视频为主的多媒体数据量与日俱增,充斥着人们的生活。多样的视频数据逐渐成为了人们获取信息的一类主要来源。丰富的信息资源一方面给人们生活带来了极大便利,满足人们的精神需求,另一方面海量的视频数据又给人们精确获取信息带来了极大的困难,同时也给监管带来了不小的挑战。而如何利用计算机对视频进行准确的理解,为分类、检索等任务提供有效的参考,是一件非常具有挑战性的事情。视频理解方法多样,其中从语义层面对视频数据进行信息的提取和分析,是当下进行视频理解任务的有效方法。而视频理解方式也有很多,本文通过使用自然语言对视频描述进行研究。本文从语义理解出发,对图像语义理解和视频语义理解分别进行研究,主要工作内容如下:1.本文提出并设计了一种双层LSTM网络,用于解决基于传统编解码架构的图像描述任务中,存在的忽略编码端性能和图像区域与文本描述间的相关性的问题。其中,本文在编码端通过多尺度图像金字塔提升语义信息的提取能力,通过侧链LSTM对卷积网络提取的特征信息进行过滤,同时结合信息增益拉近图像与文本的特征分布,解决了其他模型中图像特征与文本描述分布不对齐的问题。通过多个对比实验,本文提出的方法展示了其在图像描述中具有良好效果。2.本文提出并设计了一种结合控制门结构的循环图卷积网络,用于处理传统模型中特征缺乏语义信息和序列到序列学习中普遍存在的序列特征之间不对齐的问题。其中,本文将场景图这一种图像语义的描述模型作为输入数据,在传统图卷积网络上添加了结合控制门结构的自循环结构,利用控制门进行特征筛选、循环结构进行信息共享和权值共享的方式,实现控制增强与衰减特征信息在网络间的流动,进而不断增强视频序列和文本序列的相关性。实验验证了本文提出的算法的有效性。3.基于上述研究工作,本文设计并实现了一个基于web的自动视觉描述系统原型,通过简单的实现,用户可以在网页端使用本文实现的视觉描述模型。