论文部分内容阅读
人口老龄化是当下重大的社会问题,尤其是对老人在日常生活中的照护更是急需解决的热点问题。虽然各国提供了人工护理的方式来解决这一问题,但对于我国这样一个拥有13亿多人口的大国来说,这种传统的护理方式不足以应对巨大的社会需求。解决这类问题的一个可行办法是利用人体行为识别技术对老人的室内日常行为进行识别,以便实现对老人自动看护的功能,从而降低社会负担。在人体行为识别中,最核心的两个步骤是特征提取和分类识别。目前的特征提取技术多是通过RGB图像进行,受到光照和复杂背景等因素影响,行为识别准确度不高。随着Kinect的发布,研究人员开始使用Kinect采集的RGB-D数据进行特征提取。相比于RGB图像,深度图像和骨骼数据对光照、复杂运动背景等因素变化不敏感。因此,为了提高行为识别准确度,本文结合深度图像和骨骼数据提出了一种基于RGB-D视频的人体行为识别算法。本论文的主要研究内容如下。1.对于Kinect采集的深度图像,本文首先研究了深度图像的DMM(Depth Motion Maps,深度运动图)。但DMM是对整个深度图像序列差分得到,缺少动作时序信息。为了改善该问题,本文结合深度图像关键帧,提出了一种WDMM(Weighted Depth Motion Maps,权重运动图),改善了DMM缺乏时序信息的问题。然后,在WDMM的基础上提取了LBP(Local Binary Pattern,局部二值模型)特征,得到深度图像特征。2.对于Kinect采集的骨骼数据,本文提取了骨骼姿势特征、局部特征和多时间尺度的位移特征。骨骼姿势特征可以有效的表达人体在某一时刻的动作。骨骼局部特征则可以表示人与物体交互行为。多时间尺度的骨骼位移特征则可以改善类内动作差异大的问题。最后,将这三种特征进行融合,得到最终的骨骼特征。3.针对目前人体行为识别算法多是基于单一类型数据进行特征表达的问题,本论文对提取的深度图像特征和骨骼特征进行了融合,得到融合特征。融合特征充分利用了深度图像特征具有丰富三维结构信息的优势和骨骼数据特征对复杂运动背景不敏感的优势,实现了两种类型数据的优势互补。4.针对传统分类算法SVM(Support Vector Machine,支持向量机)训练时间长的问题,本文利用ELM(Extreme Learning Machine,超限学习机)算法对特征进行分类。ELM算法可以有效缩短训练时间,而识别准确度与SVM算法相比,并不会降低。最后,在MSR Action3D行为识别数据集上对本文提出算法进行了验证。实验结果表明,本文提出的基于RGB-D视频的人体行为识别算法要优于传统的人体行为识别算法。