论文部分内容阅读
在现代人日益注重健康、推崇体育运动的大背景下,体育视频的数据量和受众群体迅速增长,以及其潜在的应用价值而引起科学研究者和工业界的广泛关注。本文研究的内容是自由体操视频自动描述。所谓自由体操视频自动描述,是指通过观察视频中运动员的成套动作,来生成该运动员所执行的这套动作的专业名词。本文的研究在体育运动分析,自动解说,运动指导等方面有着广泛的应用价值。本文中对自由体操视频内容自动描述的研究,更具体而言是对自由体操视频中人体动作的自动理解。本文将结合计算机视觉和深度学习相关知识,实现对视频序列中存在的特定的人体运动的智能化标记和表示。本文的主要工作如下:(1)基于长短时记忆网络来实现对自由体操视频的自动描述。在经典的视频描述模型S2VT中,利用长短时记忆网络,来学习单词序列和视频帧序列之间的映射关系。本文引入注意力机制,突出决定自由体操动作的关键帧的重要性。本文建立了专业赛事的自由体操分解动作数据集。在MSVD数据及自建数据集上进行实验,运用计划采样的方法,消除训练解码器和预测解码器之间的差异。实验结果表明了本文改进的方法能提高自由体操视频自动描述的精度。同时,在本文的实验中,也对不同的卷积网络提取特征的效果进行对比,分析了特征提取网络对自由体操动作自动描述的影响。(2)基于三维卷积网络和多标签分类的自由体操视频的自动描述方法。一套自由体操动作由多个分解动作组成。在本文的工作中,构建单个分解动作的分类器,将自由体操动作的自动描述问题转化为多标签分类问题。由前面章节的内容可知,随着特征提取网络深度的增加,实验效果增强,然而二维卷积神经网络在提取特征时会丢失时间信息,所以本文中采用三维卷积网络对视频进行时空上的特征提取。对提取到的特征进行多次二分类来实现多标签分类的目标。为了形成对比实验,将分类的结果随机组合成为一个句子,与第三章自动描述方法的结果进行对比,验证该方法的有效性。