论文部分内容阅读
计算机视觉领域的快速发展,使得计算机对视频内容进行理解变成了可能。人体动作识别作为视频理解中最为重要的部分之一,是计算机视觉领域一个热门且极具挑战性的研究方向。人体动作识别具有广阔的应用前景,在日常生活中的各个领域(比如自动驾驶辅助、体育动作分析和智能视频监控等)发挥着重要的作用。但是,当前人体动作识别依然存在较多挑战性因素尚未被很好地解决,比如不同个体间的差异和运动速度的不同,可能造成人体动作的类内差变大而类间差变小的情况;视频中的光照、视角变化等问题对最终的识别结果造成影响等等。本文在充分总结前人研究工作的基础上,分析当前人体动作识别领域的不足,进而提出基于时空的DenseNet算法解决视频分析中的人体动作识别问题。本文的主要工作贡献在于:首先,本文提出了三维DenseNet。由于视频是由图片序列组成的,仅对于单张图片提取特征会导致视频在时间维度上的信息丢失。为了得到时间维度上的信息,本文将用于单张图片分类的DenseNet网络模型从二维扩展到三维,使网络模型能够在时间维度上对视频图片序列进行特征提取,引入三维卷积和三维池化操作,有效应用于人体动作识别。然后,本文提出了基于时空DenseNet的人体动作识别方法。以三维DenseNet作为基础网络结构,构建时空DenseNet。时空DenseNet网络具有两条信息流,空间流和时间流,空间流网络接受固定长度的图片序列作为输入,时间流网络接受固定长度的动态信息图序列作为输入。空间流网络和时间流网络各自的预测结果在最终分类层进行融合,得到动作识别结果。此外,由于视频序列的时间信息和空间信息是独立而又相互联系的,本文还在时空DenseNet的空间流和时间流之间进行了时空信息融合。为了更好的提取时空特征,本文提出了不同的融合策略和融合方式,在实验中探究了时空DenseNet模型在不同时空融合方式和不同时空融合结构下的模型效果,并对其进行了分析和总结。最后,本文在UCF101和HMDB51人体动作数据集中测试了本文提出的基于时空DenseNet的人体动作识别方法。实验结果表明,本文提出的方法在这两个数据集上的准确率分别达到了 93.1%和68.7%,这一结果优于当前最常用以及性能优越的算法,并且在HMDB51数据集上准确度提升了 2.3%。同时,本文方法的模型参数数量相较于其他网络而言减小了至少十倍,有助于降低网络模型复杂度,加速训练和测试过程。