论文部分内容阅读
随着互联网和多媒体技术的飞速发展,每天有海量的视频产生并上传到各大直播平台,如何让机器理解这类海量的多媒体内容,以此提升这些视频的智能分发效果及效率是各大直播平台面临的重要问题,视频分类是视觉理解技术中的重要组成部分,因此如何实现对视频进行精确且高效的分类是本文研究的主要内容。
视频作为多媒体内容的重要组成部分,相比多媒体中的文本和音频等信息而言包含的内容更加丰富,因此本文主要以视频作为研究对象,使用视频解码后的图像作为我们分类方法的输入特征来实现对视频内容的自动分类。本文的研究工作主要集中在构建高效且精确的视频分类方法来提高视频分类系统的性能,具体的研究工作如下:
(1)针对视频分类现有混合卷积神经网络(2DCNN+3DCNN)架构ECO在底层2D网络进行外观特征提取时,易受不相关背景的影响,并且在高层3D网络学习时间表示时只关注局部时间窗内的动态,没有考虑动作的长期时间结构等问题,提出了一种将通道空间注意力和非局部感受野引入到混合CNN架构中的视频分类方法(CS-NL-ECO)。首先在已有混合架构中的底层2D网络引入通道和空间注意力(CS),通过学习自动获取每个特征通道的权重,依照权重关注重要的特征而抑制不相关的背景。其次在高层3D网络中引入非局部模块(NL),学习非局部时空特征表示自动捕获长范围的时空特征依赖关系。最后在UCF101、HMDB51、Kinetics以及Something-something这四个视频分类常用的公有数据集上进行了实验,结果表明该方法在精度上优于原方法,并且整体性能优于一些视频分类的方法。
(2)针对CS-NL-ECO方法中的三维ResNet网络中时空卷积核和大输入、输出张量导致的额外的计算成本等问题,研究了引入时空卷积核分解和多纤维单元结构改进计算效率的方法,并探索了时空卷积核分解能否对多纤维单元方法做进一步的优化,提出了一种基于多纤维单元结构的高效视频分类方法(CS-NL-MFECO),通过在3DResNet网络中嵌入多纤维单元结构,进一步增强网络的时空特征表示能力,提高网络计算效率,同时保证视频分类的准确性。实验结果表明将多纤维单元引入到混合架构的CS-NL-MFECO方法取得了更好的计算效率,整体性能达到了最新方法的基准。
(3)本文将所研究的方法应用于音视频编解码服务器中的在线视频分类模块中,根据需求设计了一套合理的在线视频分类流程,并且针对在线场景进行了功能展示,并对实验结果进行分析。
视频作为多媒体内容的重要组成部分,相比多媒体中的文本和音频等信息而言包含的内容更加丰富,因此本文主要以视频作为研究对象,使用视频解码后的图像作为我们分类方法的输入特征来实现对视频内容的自动分类。本文的研究工作主要集中在构建高效且精确的视频分类方法来提高视频分类系统的性能,具体的研究工作如下:
(1)针对视频分类现有混合卷积神经网络(2DCNN+3DCNN)架构ECO在底层2D网络进行外观特征提取时,易受不相关背景的影响,并且在高层3D网络学习时间表示时只关注局部时间窗内的动态,没有考虑动作的长期时间结构等问题,提出了一种将通道空间注意力和非局部感受野引入到混合CNN架构中的视频分类方法(CS-NL-ECO)。首先在已有混合架构中的底层2D网络引入通道和空间注意力(CS),通过学习自动获取每个特征通道的权重,依照权重关注重要的特征而抑制不相关的背景。其次在高层3D网络中引入非局部模块(NL),学习非局部时空特征表示自动捕获长范围的时空特征依赖关系。最后在UCF101、HMDB51、Kinetics以及Something-something这四个视频分类常用的公有数据集上进行了实验,结果表明该方法在精度上优于原方法,并且整体性能优于一些视频分类的方法。
(2)针对CS-NL-ECO方法中的三维ResNet网络中时空卷积核和大输入、输出张量导致的额外的计算成本等问题,研究了引入时空卷积核分解和多纤维单元结构改进计算效率的方法,并探索了时空卷积核分解能否对多纤维单元方法做进一步的优化,提出了一种基于多纤维单元结构的高效视频分类方法(CS-NL-MFECO),通过在3DResNet网络中嵌入多纤维单元结构,进一步增强网络的时空特征表示能力,提高网络计算效率,同时保证视频分类的准确性。实验结果表明将多纤维单元引入到混合架构的CS-NL-MFECO方法取得了更好的计算效率,整体性能达到了最新方法的基准。
(3)本文将所研究的方法应用于音视频编解码服务器中的在线视频分类模块中,根据需求设计了一套合理的在线视频分类流程,并且针对在线场景进行了功能展示,并对实验结果进行分析。