论文部分内容阅读
基于连续视频流的人体行为识别是人机交互领域的一项关键技术,其在监控安防、医疗护理和游戏娱乐等领域的应用中都展现出了优异的性能。基于CNN网络的方法是研究的主流方向,CNN分为二维和三维。虽然二维CNN网络的应用性比较好,但是从研究的角度来看,三维CNN网络有着更大的探索空间,是未来的研究热点。在传统的研究中,大多是利用二维CNN网络处理RGB数据集。虽然这种方法性能较好,但是存在着很多不足。例如,在不同光照强度和有遮挡情况下识别率较低,对长时间的连续行为处理效果不佳,RGB行为数据集无法满足日渐复杂的实际应用需求。近些年,研究人员提出了基于三维CNN和LSTM网络的行为识别算法,这在一定程度上提升了算法的性能。然而,三维CNN网络的复杂框架导致了参数过多训练效果不好的问题,传统LSTM网络也无法对视频帧进行针对性的提取和训练。此外,虽然现有的RGB-D公开数据集的规模比较大,但是其与真实场景有一定差别,且这些数据没有经过较好的预处理,不能高效的训练算法。为了解决上述问题,本文引入了稠密连接和注意力机制的思想,分别改进了三维CNN和LSTM网络,在此基础上,提出了一种基于RGB-D数据集的新型融合模型。本文的算法几乎不受光照和遮挡的影响,在不同的复杂环境下都有着较高的识别率;又优化了网络结构,提升了参数使用效率。自制了真实场景的RGB-D数据集,并给出性能较好的预处理方法。本文的主要贡献总结如下。首先,采取双通道的三维CNN网络对RGB和Depth特征进行提取,引入稠密连接的思想实现了参数共享,提升了网络的训练效果和特征提取性能。提出一种用于选择三维卷积核的新实验方法。在此基础上,又采取了实时的特征融合方法,兼顾了两种模态特征的共性,得到了更有效的特征。然后,在LSTM网络中引入软注意力机制,为输入特征向量中的每个元素分配相应的权重,让网络有针对性的学习各个视频帧。这种方法可以去除特征向量中的冗余信息,提高算法对全局长时间特征的处理能力。与三维CNN网络的局部短时间特征处理相结合,使得本文的算法拥有优越的时间信息处理性能。提升了算法对复杂行为和相似行为的识别率。最后,为了更好地训练本文的网络,自建了更加贴近于真实环境的复杂RGBD数据集。在自建数据集、SBU-Kinect数据集和MSR-action-3D数据集上进行多组实验。其中包括在自建数据集上测试多种传统算法和近年来优秀的算法,使用公开数据集测试本文的算法。详细分析并对比多种实验结果,验证了本文提出算法的正确性和有效性。