论文部分内容阅读
随着多媒体技术的发展、智慧城市建设的深入、可携带智能终端设备的推广,视频逐渐成为日常生活中不可或缺的数据载体。视频数量的日益增长,复杂多样的视频内容给视频的检索、分析、存储带来巨大的压力。这般海量,庞杂多样的视频数据推动了人们从数据语义层面分析数据,并建立视频数据语义概念标签,从而实现快速有效的视频检索和管理方法。因此,研究如何有效地提取视频特征并实现视频语义概念分析检测成为视频监管和检索领域的热点问题。在查阅了大量国内外相关论文后,本文首先介绍了视频语义概念分析的研究背景、意义以及国内外研究现状;其次,简述了几种基于深度学习方法的视频语义概念分析模型和典型应用;最后,本文分析现有研究中存在的不足之处提出流形嵌入卷积神经网络模型、基于流形嵌入和光流注意力双流卷积神经网络(Two-stream CNN)视频语义概念分析模型,为验证所提模型的可用性,设计开发了视频语义概念检测原型系统。本文的主要研究工作如下:(1)提出了基于流形嵌入卷积神经网络图像特征学习方法。传统的图像、视频特征学习在构建卷积神经网络模型过程中缺乏对图像近邻关系与关联特征的学习,并且卷积神经网络训练过程中存在内部协变量位移,收敛速度较慢,训练困难等问题。本文提出了流形嵌入卷积神经网络图像特征学习方法,该方法为卷积神经网络引入流形约束,将上一层的流形嵌入到下一层的卷积运算中,使卷积神经网络的每一层都能有效保持上一层的流形结构,从而获得能够反映图像近邻关系与关联特征的视频图像特征表达。将该方法应用于图像分类,实验结果表明,该方法能够更有效地提取图像特征,从而提高特征分类的准确性。(2)提出了基于流形嵌入和光流注意力双流CNN的视频语义概念检测方法。考虑到视频空间流特征和光流特征之间有很强的互补性,本文提出了基于流形嵌入和光流注意力双流CNN视频语义概念检测方法。该方法对双流网络进行特征融合建模,通过将流形嵌入空间流卷积神经网络中挖掘特征之间的近邻关系和关联信息,引入从时间流网络到空间流网络的光流注意力层,引导空间流更多关注人体前景区域,并减少背景噪声的影响,从而较好地获得时空特征之间的变化和差异,再将双流CNN获取的特征按照时间顺序输入LSTM中学习时序特征,最后对两流的分类器结果进行置信融合,更有效提高特征学习的可鉴别性和视频语义概念检测的准确性。(3)采用面向对象软件开发方法,使用Python、PyQt等库包设计实现基于流形嵌入和光流注意力双流CNN视频语义概念检测原型系统。该系统有三个子模块分别为:视频数据预处理、模型训练、视频语义概念检测。系统提供了简洁的可视化界面,用户操作方便易上手,功能模块设计完整,具有良好的交互性和可用性。