论文部分内容阅读
视频描述技术指的是通过构建神经网络来挖掘视频中的图像信息及含义,并将其以便于人为理解的文字形式输出描述语句或段落的技术。通过这样的技术,将信息从冗余度较高的视频形式转换成冗余度较低文字形式,这在如今信息高速膨胀的时代有着巨大的意义,并已广泛应用在视频检索、行为定位及内容过滤等方面。近几年来,视频描述生成技术有了很大的发展,并涌现出了很多生成方法,解决了如动作定位、多句生成等技术问题。但是怎样去生成细粒度的视频描述(也就是对时间跨度长且细节丰富的视频中,多个主体的细节动作及主体间频繁的交互的描述)问题还远远没有得到解决。而这个问题却有着很大的应用价值,比如用来进行体育视频的自动解说。为此,本篇论文提出细粒度视频描述技术,并致力于通过该技术解决细节及交互丰富的体育视频解说问题。为了实现这个目标,这个工作做了以下努力:首先,为了研究这个细粒度视频描述的新课题,本文创建了一个全新的数据集——细粒度体育视频描述数据集(FSN)。这个数据集包含了一万两千个来自Youtube网站的高清篮球和排球体育视频,并且每个数据集都具有人工标注的动作时间窗格节点及段落语句描述。这个数据集包含了该课题需要面对的细粒度动作、多主体交互等核心挑战。其次,本文提出了一个新的视频描述评价标准——细粒度视频描述评估准则(FCE)来为这个新的课题提供更合理的评估标准。FCE在目前广泛使用的评估标准METEOR的基础上进行了改进,不仅对语义方面的结果进行评估,还对细节动作的准确性以及动作的描述顺序正确性方面进行了考量,而后两者恰恰是在细粒度视频描述中非常重要的方面。最后,本文为细粒度体育视频描述任务提出了一个新的深度学习神经网络框架,这个神经网络包含了三个子网络:(1)时域窗口-空域实体定位及人物角色判断子网络,该网络需要对视频中不同时域动作窗口进行分割,并对每个窗口中的人物进行定位和身份判断。(2)一个利用骨骼信息进行细粒度动作建模子网络,通过改进的骨骼描述算子来提高细节动作的识别精度。(3)一个用于挖掘运动员之间交互行为的群体交互关系建模子网络。得到了这三个子网络的输出特征之后,我们进一步对这些特征进行融合,并通过一个h-RNN循环神经网络进行编解码最终得到一段描述文字。本工作在FSN数据集上做了大量的实验,并通过多个评价标准结果论证了本文所提出的细粒度视频描述方法对于解决体育视频解说问题的合理性,此外本文也与当前已公布的主流视频描述算法进行了同等条件下的对等比较,结果也证明了本文所提出算法的有效性和优越性。