论文部分内容阅读
随着计算机技术和多媒体技术的飞速发展,人们获取和存储数字视频变得更加容易。近些年来互联网的飞速发展,使得数字视频的传播也变得更加便捷,数字视频慢慢成为互联网用户交流和分享信息的主要途径。数字视频数量的飞速增加,使人们整理和分类数据工作面临巨大的挑战,传统人工标注和分类的方法显然已经无法满足视频增长的需求。视频的自动分类技术作为计算机视觉一个重要的分支,已经成为目前热门的研究课题。视频数据相对于文字、图像等静态信息,其内部信息的组成结构相对复杂,传统计算机视觉中研究人员手工设计的特征无法有效地提取到其中关键的动作信息。随着深度学习技术在图像领域的飞速发展,利用深度学习技术提取视频中关键的特征信息成为目前视频分类的主要特征提取方法。本文依托深度学习模型来提取视频中的关键特征信息,围绕着深度特征融合的视频分类方法进行研究。针对二维卷积神经网络和三维卷积神经网络提取的深度特征,本文提出了两种视频分类的方法。针对三维卷积神经网络提取的动作特征,提出了多时间尺度特征融合的视频分类方法,使得特征能够覆盖不同类型动作信息,从而提高特征多样性。在特征编码过程中,本文提出新的特征编码方法将定长图像序列的特征转换为整个视频的特征。针对二维和三维卷积神经网络提取的特征,提出了注意力多特征融合的视频分类方法。该算法利用长短时记忆单元中的上下文特征信息,通过注意力机制对二维卷积神经网络提取的视频帧语义特征进行修正,从而过滤背景等干扰信息,提高算法识别率。在特征融合过程中,提出自学习的加权融合策略,通过神经网络训练得到不同特征的权重系数,从而充分利用特征间关系,提升分类性能。为验证提出的视频分类方法的有效性,本文在公开数据集UCF101上进行了大量的验证和对比实验。实验结果表明,本文提出的视频分类方法可以有效地解决目前一些方法已存在的问题,从而得到较好的分类效果。