论文部分内容阅读
是对视频内容的高度概括,选择出具有多样性和重要性的视频帧子集。文章从关键帧代表性不够全面的角度出发,提出一种利用多路特征来提取视频关键帧的方法,通过卷积神经网络(convolutional neural network,CNN)和长短时记忆网络(long short-term memory,LSTM)来预测视频帧被选中的概率。将提取出的视频帧的原始特征送入LSTM,将处理过的两两视频帧特征的差特征也做同样的处理,差特征包含了相邻视频帧之间更多不同的信息。由于LSTM长期依赖的特性,使得整个网络可以学