论文部分内容阅读
随着深度学习技术的发展,利用卷名冲经网络(CNN)是取视频帧特征,再用循环神经网络(RNN)生成句子的方法被广泛用于视频描述任务中.然而,这种直接转换方式忽咯了很多视频内在信息,如视频序列的时序信息、运动信息及丰富的视觉元素信息等.为此,文中提出了一种基于自适应帧循环其充法的多模态视频描述(AFCF—MVC)模型;采用自适应特征提取法是取含有丰富时空信息的运动信息的视频c3D特征,使得C3D特征包含了整个视频序列所有帧的信息,并将其作为冲经网络为输入;钉对不同视频的标注句子长度不同问题,提出了自适应帧循环