论文部分内容阅读
近年来,对视频中的行为建模和识别一直是计算机视觉研究中的热点和难点。由于递归神经网络,特别是长短时记忆网络,在机器翻译等领域的突出表现,利用递归神经网络对视频进行序列建模成为主流方法之一。但在较早的研究中,直接利用递归神经网络对视频帧的高层特征序列建模,并没有取得预想中的卓越效果。这主要是由于与一般的序列数据不同,视频数据具有自己的特点:一,视频数据本身具有维度高、语意结构复杂等诸多特点。具体到行为识别,视频中部分行为的判别存在歧义性,对上下文信息存在依赖性。二,视频数据序列中的单帧信息结构性弱、相邻帧信息冗余大。这两个方面的特点都极大得增加了利用递归神经网络进行建模的难度。针对视频数据的特点,结合递归神经网络的特性,我们对视频中的行为识别任务,分别设计了递归时空注意力网络和递归姿态注意力网络,来提高递归神经网络对视频行为的建模能力。并在公开数据集上对方法进行了测评,验证了方法的有效性。在本论文的第一部分,针对视频数据的特点一,我们提出了递归时空注意力网络结构。从而支持递归神经网络对每个时刻进行预测时,除了利用高层序列特征之外,可以从整个帧序列中,自适应得找到与当前特征具有强互补作用的中层特征。通过利用全局的多层的互补信息,从而增强了递归神经网络的建模能力。同时,为了利用图像表观信息和运动信息的互补性,我们还提出了注意力引导的表观流-运动流融合机制。我们在公开数据集UCF101,HMDB51和JHMDB上进行了方法验证。在前两个数据集上取得了优于其他基于递归神经网络的方法,在JHMDB数据集上取得了当前最好的结果。这部分工作,已经在IEEE Transactions on Image Processing(TIP)2017 发表。在本论文的第二部分,针对视频数据的特点二,结合姿态与行为的密切关联性,我们提出了递归姿态注意力网络结构。在该结构中,通过利用姿态信息对注意力热图进行监督,从而得到与姿态相关的姿态特征,以实现对单帧信息的“结构化”,有利于更加有效的模型训练。该结构在行为识别的同时,还能对视频中的姿态进行粗估计。我们在公开数据集Penn Action,Sub-JHMDB上进行了方法验证。在两个数据集上均取得了当前最好的效果。这部分工作,已经在IEEE国际计算机视觉大会(ICCV)2017发表,并在大会进行了口头(oral)报告。