论文部分内容阅读
随着深度学习技术的发展,利用卷积神经网络(CNN)提取视频帧特征,再用循环神经网络(RNN)生成句子的方法被广泛用于视频描述任务中.然而,这种直接转换方式忽略了很多视频内在信息,如视频序列的时序信息、运动信息及丰富的视觉元素信息等.为此,文中提出了一种基于自适应帧循环填充法的多模态视频描述(AFCF-MVC)模型;采用自适应特征提取法提取含有丰富时空信息和运动信息的视频C3D特征,使得C3D特征包含了整个视频序列所有帧的信息,并将其作为神经网络的输入;针对不同视频的标注句子长度不同问题,提出了自适应