论文部分内容阅读
视频业务呈爆发式增长,人工利用和管理视频的方式已无法满足业务发展的需要,亟需引入一系列基于计算机的自动化视频分析方法。视频描述方法能够将视频内容转换为易于处理的自然语言描述,是处理视频信息的重要技术。现有基于深度学习的视频描述方法还不能满足实际生产生活的需要,本文针对其中的关键问题进行研究,主要工作概括如下:为了提高视频描述模型对视频主体对象的描述准确性,提出一种基于高层语义的视频帧特征提取器。该特征提取器包括目标检测、目标与特征匹配、特征强化、特征形式转换4个处理环节,在各环节分析视频特殊情况对特征提取的影响并提出应对处理,以提高特征可靠性。其次,因为基于可解读的高层语义信息,该特征提取器可直接根据在具体视频数据上的性能表现调整参数或替换组件,具有较好的通用性。实验结果显示,所提取的视频帧特征有效提高了视频描述模型在MSVD数据集上的性能,表明了利用高层语义信息提高视频描述精度的方法有效性。为了提高视频描述模型对复杂视频对象和场景的描述能力,提出基于特征融合的改进编码器。一方面,利用密集连接网络完善视频各语义层次的视觉特征提取,提高特征的多样性及描述能力;另一方面,归纳深度学习模型中典型的特征融合范式,采用面向视频描述的4种特征融合框架,作为编码器网络结构的改进。实验结果显示,基于特征融合的改进编码器使融合特征兼具准确性和多样性,有效提高了视频描述模型在MSRVTT数据集上的性能,表明了通过特征融合提高模型描述能力的方法有效性。为了缓解循环神经网络运行缓慢,不利于视频描述模型研究和应用的问题,提出基于新型循环神经网络的改进编码器。一方面,利用新型循环神经网络参数和状态精简的特点,减少视频描述编码器存在的计算冗余。另一方面,利用新型循环神经网络的新结构降低模型训练优化的难度,以保持模型的性能。具体选用了SRU和IndRNN两种新型循环神经网络进行实验,实验结果显示,与使用传统循环神经网络作为编码器的视频描述模型相比,基于SRU编码器的模型在性能保持的条件下提高了计算效率,且提高幅度不低于6.4%;基于IndRNN编码器的模型在性能损失不超过11%的条件下提高了计算效率,且提高幅度不低于30.9%。结果表明了利用新型循环神经网络提高视频描述模型计算效率的方法有效性。