论文部分内容阅读
人体行为识别算法在虚拟现实、智能监控和无人驾驶产业蕴含着巨大的研究意义和工业价值。传统行为识别算法都是基于彩色图,手工设计特征提取器,提取彩色图的形状颜色等特征,然后对特征建立描述符,选择分类器进行分类。这会导致两个问题,第一,彩色图信息熵较少,提取的特征不能很好的表示行为并且对背景遮挡和视角变化的泛化性很差。第二,传统算法特征提取器设计困难,而且其行为识别率不高。而新兴的RGB-D数据包括彩色图,深度图和骨骼图,含有丰富的信息熵,但RGB-D多源信息融合是一个难点。此外,实验证明卷积神经网络在图像分类上取得了巨大的成功,因此,本文提出基于RGB-D与深度学习的人体行为识别算法。为解决传统算法特征提取器设计困难的问题,采用Faster RCNN来提取特征并分类,分析了Faster RCNN的算法框架,通过数据增强、删除一层全连接层和加入Dropout等策略,来提高人体行为识别率。针对RGB-D多源信息融合困难的问题,利用RGB-D信息之间的互补性,使用深度图和骨骼图,定位彩色图的感兴趣区域,排除无关区域的干扰。综上,提出基于RGB-D与Faster RCNN的人体行为识别优化算法,并在UTKinect数据集进行实验,实验结果显示,算法的平均识别率达到了94.70%,优于其它主流算法,验证了算法的可行性。为解决彩色图信息熵较少和在背景遮挡与视角变化场景下泛化性差的问题,利用深度图和骨骼图对背景遮挡和视角变化有较强鲁棒性的数据特点,采用Two Stream CNN来融合深度图和骨骼图的特征。并在网络内部提出两种融合策略,分别在全连接层和Softmax层融合,以研究不同的多源信息融合策略对行为识别的影响。两种不同的融合策略,在UTKinect数据集上的平均识别率分别为96.20%和95.70%,在SBU Kinect数据集上的平均识别率分别为92.70%和92.10%,都优于其他主流算法,有效验证了算法的鲁棒性。