论文部分内容阅读
近年来,随着互联网、多媒体技术迅猛发展,网络视频数据传输更加方便、来源愈加多样使网络视频数据量迅速增加。视频数据作为当前互联网中的重要数据源,含有比其它类型数据更加复杂、丰富的信息。如此丰富的视频数据促使人们在语义层面对视频数据进行分析建立视频的语义概念标签以实现对数据的更高效管理和检索。研究如何高效的学习和利用视频数据特征实现视频语义概念建模检测成为视频管理和检索领域的热点问题。 本文在查阅大量国内外文献基础上,首先对视频语义概念检测的研究背景、意义及现状进行介绍,然后简明介绍几种深度学习模型以及基于深度学习的视频语义概念检测研究应用。本文分析以往研究中不足之处提出基于拓扑稀疏编码预训练卷积神经网络的视频语义分析、基于图正则化优化深度神经网络的视频语义分析,并且设计实现语义概念检测原型系统。本文主要研究内容如下: (1)提出了基于拓扑稀疏编码预训练卷积神经网络的视频语义分析。针对以往研究中基于卷积神经网络的视频特征学习模型没有考虑对视频图像拓扑信息学习的问题,本文提出基于拓扑稀疏编码预训练卷积神经网络的视频语义分析方法,该方法为稀疏自动编码器引入拓扑约束,构建了一个新的拓扑稀疏编码器用之于预训练各层神经网络参数,使视频图像的特征表达能反映图像的拓扑信息,随后构建视频特征学习的全连接层并在图像特征学习和视频特征学习的全连接层,综合利用视频标签信息微调网络参数,使深度网络能够学习获得更合理有效的视频特征。 (2)提出了基于图正则化优化深度神经网络的视频语义分析。针对基于深度神经网络的视频语义分析在全连接层单依靠逻辑回归微调学习鉴别性特征,存在鉴别性能力考虑和利用不足的问题,考虑如何进一步利用输入数据的特性来提升深度网络提取特征的鉴别性能力。本文提出基于图正则化优化深度神经网络的视频语义分析方法,该方法对具有局部保持流行学习特性的图正则化自动编码器进行改进,将仅考虑近邻关系构建的单一图正则化项改进为同时考虑类别关系和近邻关系构建的两个图正则化项,以获得具有鉴别性损失的图正则化自动编码器,再将其应用于对经过逻辑回归微调后的深度卷积网络的全连接特征降维优化学习,从而获得更具鉴别性的视频特征,来进一步提升视频语义概念检测的准确性。 (3)运用面向对象的程序设计思想,采用python及相关附加库设计实现基于拓扑稀疏编码深度学习的视频语义概念检测原型系统。该系统包含视频数据预处理、模型训练、语义检测三个功能模块,系统界面简洁,操作方便,验证采用本文方法设计开发的原型系统的可用性。