论文部分内容阅读
人体连续动作识别是服务机器人进行人机交互的基础,对服务机器人的发展起着至关重要的作用。目前对于动作识别的大量研究主要针对单个完整动作的识别,对于连续动作识别的研究相对较少,同时传统的机器学习对于动作序列特征提取的不足也限制着动作识别领域的进步。近年来深度学习逐渐兴起,由于深度学习自动学习样本集特征的能力,各个领域都掀起了研究深度学习的热潮。本课题结合当下最火热的深度学习展开对连续动作的识别,设计了一个改进的3D CNN(卷积神经网络)混合模型,为解决人体连续动作的识别难题提供一种解决方式。针对连续动作难以识别问题,本文在进行网络结构设计之前,对动作序列进行了一系列的预处理,分别对原始样本提取灰度特征,运动特征和边缘特征。在运动特征提取方面,由于稠密光流的计算量大,L-K稀疏光流法对大运动难以捕捉等问题,设计了一种使用卷积核改进的L-K光流法来对运动特征进行提取。在边缘特征提取方面,由于在网络训练前需要对图像进行分辨率的统一,在重采样过程汇总会造成边缘特征模糊问题,故增设了边缘特征通道,使用了Gabor滤波器对图像序列中的纹理进行凸显。图像预处理形成多通道之后,对各个通道设计3D CNN网络结构,针对通道数过多,如果直接将各个通道的网络特征进行串联,计算量过大而且会造成部分特征模糊。于是利用离散小波变换将边缘特征通道和运动特征通道进行整合,提高了网络整体的性能。在通过深度网络提取特征之后,设计了多个分类器对动作序列进行识别分类,确定了3D CNN与SVM结合的混合模型对动作识别表现优异。并针对该混合模型进行了各网络层的特征可视化,深入理解了各网络层的操作过程。本文将设计的混合模型运用于人体连续动作识别上,由于训练样本选取的是片段式动作,所以在训练过程中不需要预先划分动作再进行识别,只需要收集一定帧数即可去识别,为人体连续动作识别方面提供了一种很好的解决方法,具有很好的实践意义。