论文部分内容阅读
对视频中出现的人类动作进行识别一直是机器学习领域中研究的焦点内容,其可以被广泛应用到众多的日常生活领域中,包括:自动驾驶、智能家居、游戏交互、视频点评、安全、运动训练等,并产生积极影响。由于视频中数据的复杂性导致对视频中人类动作识别是一项特别具有挑战性的任务。不同观看条件、不同的观看角度、与视频动作主体无关的噪声内容、某些动作所包含的复杂的变化和时序结构都会提升网络模型设计和训练的难度。本文围绕视频中动作识别任务易受主体显著程度和类间相似性影响、数据集构建自动化程度低的问题开展研究工作,取得了以下研究成果:1、本文提出了一种应用于深度3D卷积网络的注意力和微注意力分支结构,用于解决视频画面中动作主体不显著时使用视频图像来识别动作的网络出现的准确率下降问题。注意力分支由1*1*1的卷积核和最大池化层构成。该分支可以以插件的形式灵活的被添加到现有的3D卷积网络之中,并维持原有网络整体架构不变。添加了注意力分支的网络可以在特征提取过程中实时融合注意力特征,以此提高网络对于画面中动作主体的聚焦能力。微注意力分支主要应用于存在多个子分支的网络模块之中,提高注意力特征的定向融合能力。实验结果表明,添加微注意力分支构建的网络与原始网络相比识别准确率提高了 3.6%,而需要训练的参数规模仅增加了 0.6%。2、本文提出了一种采用声音信息进行辅助动作识别的双路神经网络,用于解决使用视频画面作为输入的网络面对动作主体短暂时间没有出现视频画面中或没有出现在显著位置上时无法做出准确判断的问题。本文通过模仿人类大脑对于外界声音的处理过程对视频中的声音进行数学统计来得到声音纹理特征,并设计了以声音纹理作为输入的网络。随后,将该网络与使用图像作为输入的I3D网络组合构造了一个双路神经网络。两分支网络的预测结果通过平均融合的方法得到最终结果。在Kinetics数据集上使用该双路神经网络与单一的I3D网络进行对比。实验结果表明,与单一网络结构相比,双路网络模型的动作识别准确率提高了 7.6%,这表明声音可以为动作识别提供重要线索。3、本文提出了一种基于文本信息和动作关联的视频动作分类器,可以实现对字幕文本中的内容进行动作标记以减少数据集构建过程中的人工参与程度。本文以BERT模型为基础设计了 Speeach-Action分类器,该分类器可以通过理解文本信息来推测与之相对应的动作类别。通过对收集的剧本文本进行解析来构建Action-Speech数据集,并对分类器进行训练,使其可以通过文本信息识别特定动作。使用该分类器对字幕文本进行动作标记来构建视频数据集sMovie。本文通过验证sMovie数据集的有效性来证明分类器的有效性。在实验环节,sMovie数据集和被限制为相同规模的Kinetics数据集对同一网络进行训练,并迁移到UCF101数据集进行验证。实验结果显示,使用sMovie数据集训练的模型平均准确率仅低5.4%,这表明sMovie数据集中包含大量有效的视频片段,可以用来辅助网络的设计和训练。4、本文设计了一个基于类的内在关系的多路网络融合方法,用于缓解相似动作对识别准确率的影响。该融合方法从不同网络分路对不同类别的预测分数中计算动作类别之间的混淆矩阵,以此来获取不同信息流中动作类别之间的相似性关系。在对网络分路预测结果的融合过程中,依据不同分支对于不同类别相似性的差异来调整各个分路融合权重,以此获得多路网络的最终预测结果。同时,结合本文现有成果设计了一个多路神经网络。该多路网络结构包含中的四个独立的网络,分路采用了视频所提供的时空信息流、动作信息流、音频信息流和文本信息流,以此实现对视频中丰富的多模态信息的充分利用。在实验环节,使用基于类的内在关系的融合方法的多路网络结构在Kinetics数据集上准确率较类间独立的融合方式高4.6%。