论文部分内容阅读
随着智能携带设备的兴起所引来的自媒体时代的高速发展,用户在网络上记录、观看和分享视频成为了人们在日常生活中用来表达和传递情感的不可或缺的方式之一。活跃在日常生活中的视频数据一方面给人们带来便利,另一方面若监管不严,肆意传播不良视频内容也会给社会大众尤其是青少年人群产生恶劣的影响。在面对数量迅猛增加的海量网上视频、图像等多媒体数据,如何甄别视频序列内容,实现视频语义概念建模从而对视频合理分类成为计算机视觉领域的热点研究课题之一,无论在民用领域还是在军用领域都有及其广泛的应用,得到了国内外众多研究者的关注。本文经过研究了国内外大量文献基础上,首先介绍视频语义概念检测领域的研究背景、意义以及国内外研究现状,其次,介绍了几种深度学习网络模型,简述了视频语义概念检测技术的相关知识。针对视频语义概念检测技术中所存在的问题,重点研究和提出多时间尺度双流CNN与置信融合的视频动作语义检测方法和结合多时间尺度双流CNN和度量学习的视频语义概念检测方法,并且为验证本文所提出的方法在视频语义概念分析任务中的实用性,设计实现了视频语义概念检测原型系统。本文的主要工作内容具体如下:(1)为解决过分依赖背景和外貌特征,以及由于视频长度的限制导致的缺少学习长序列特征能力的问题,同时考虑到视频采样的变化和目标主体运动速度的不同,以及多种动作分类器分类置信程度不同的问题,提出多时间尺度双流CNN与置信融合的视频动作语义检测方法。该方法对视频序列采用两流神经网络在多个时间尺度上学习并提取不同时间跨度的视频帧之间的上下文信息特征,并采用LSTM进行多种特征的动作语义类别预测。然后,对每一种尺度与模态的动作分类器,建立综合考虑样本所属类别与其它类别的总体差异性和所属类别的唯一性情形的类别判定置信度,最后,采用各分类器对动作类别判定的置信度与类别得分进行动作语义决策融合,实现动作语义检测。实验结果表明,所提出的方法能有效提高视频动作语义检测的准确率。(2)为解决针对视频内容的多样性和不同环境的影响,造成类内差距较大和类间相似性较大的问题,在原有的模型框架基础上,结合视频语义概念之间类别差异性度量分析,提出多时间尺度双流CNN和度量学习的视频语义概念检测方法。该方法中网络模型通过多任务学习的训练方式,同时训练相似性度量和语义概念分类检测两个子任务。由深度网络进行特征学习,同时由度量学习进行特征间的相似性度量,以对特征进行约束并分类。通过度量学习计算视频样本特征间的距离作为语义差异度,网络根据样本语义差异度计算误差进行反向传播更新参数,从而能够学习到样本语义概念之间的差异性。在UCF101上的实验结果表明,在多时间尺度双流CNN中引入相似性度量可以增强网络的特征提取能力,进一步提高视频语义概念检测准确性。(3)采用Python作为系统的开发语言,PyQt界面库作为图像界面开发环境设计实现视频语义概念检测原型系统。该系统由数据预处理、模型训练、视频语义概念检测等子模块组成,系统界面简洁友好,可操作性强,验证了本文所提出的视频语义概念分析方法的可用性。