论文部分内容阅读
在计算机视觉领域的研究中,人体动作识别向来都是学者们重视的热点课题,在视频监控、图像理解和无人驾驶等研究领域中都离不开人体动作识别技术。近年来大数据技术的不断更新,使得图片数量激增,单纯地依靠传统手工设计特征已经无法满足动作识别的需求。此外,由于人体动作的多元性和丰富性,以及图像背景杂乱和图像拍摄设备差异等因素,都为人体动作识别带来了很大的识别难度。针对上述提出的问题,本文构建了基于可变形卷积神经网络和推理网络的人体动作识别模型,通过获取人体和周围物体,推理人物关系来进行人体动作的分类。主要的研究工作如下:首先,针对卷积神经网络对人体动作数据集几何适应能力较差和识别准确率较低的问题,改进了基于可变形卷积神经网络(DCN)的动作识别模型。可变形卷积神经网络根据感兴趣点对人体动作进行采样,在DCN的基础上引入可变形部件模型(DPM)获取人体部件,两种方法得到的特征图采用加权求和的方式在可变形池化层前融合,将传统模型与深度学习模型巧妙地结合起来,起到了良好地降维效果。最后特征图经过全连接层进行动作分类。其次,图像中蕴含着丰富的上下文场景信息。在人体动作识别中,考虑更多的上下文信息,将会减少相似动作辨别错误的问题。针对人体周围的上下文信息,在改进的可变形卷积神经网络基础上提出了基于推理网络的动作识别模型。实验的网络架构是以VGG-16为基础的Faster RCNN网络加上门控循环单元(GRU)。利用Faster RCNN获取人和其周围物体的候选框,然后建立人物关系并将这些信息输入到GRU中进行推理识别,实验结果证明增加上下文场景信息的人体动作识别准确率更高。