论文部分内容阅读
无标记人体运动捕捉技术是计算机视觉领域的一个研究热点问题,它在智能视频监控、人机交互、影视动画制作、运动分析、基于内容的视频检索等多个领域均具有广阔的应用前景。在面向智能视频监控的应用中,如何克服场景的复杂多样性、人体遮挡与自遮挡以及三维空间到二维图像平面投影带来的多义性等方面的困难,实现处理过程无需人工干预、满足准确性、实时性和鲁棒性要求的无标记人体运动捕捉成为一项具有挑战性的课题。本文对基于视觉的无标记人体运动捕捉技术进行了研究和探讨,以智能视频监控的应用需求为出发点,重点针对无标记人体运动捕捉技术中的基于单目视觉的人体检测、基于单目视觉的人体动作识别和基于双目视觉的人体姿态估计这三个重要问题展开了阐述和深入研究,提出了一系列的解决方法和算法,具体包括以下三个方面:1)在基于单目视觉的人体检测中,提出了一种复杂场景下的快速人体检测方法。该方法针对遮挡较严重的复杂场景,通过图像匹配、自适应阈值的背景减除法以及改进的形态学等处理方法,有效去除了摄像机抖动、复杂背景和噪声的干扰,并基于人体头部特征进行目标分类判决来有效克服遮挡对人体检测造成的影响。为了进一步提高复杂场景下的快速人体检测方法的适应范围和准确率,提出了一种基于自适应背景模型与人体部位特征的人体检测方法。该方法通过自适应混合高斯背景模型提取前景运动目标,并在检测到的各连通域中根据人体头肩部件特征采用人体粗略定位和人体精确定位两步走的目标分类判决方法有效去除伪目标完成人体的检测。实验表明,本文所提出的两种人体检测方法均能够实时快速地完成人体检测的任务,具有较高的准确率和较强的鲁棒性。2)在基于单目视觉的人体动作识别中,提出了一种改进的基于运动特征与时空特征的人体动作识别方法。该方法以提高动作识别算法的准确率为目的,分别以光流特征和3D梯度方向直方图(3DHistograms of Oriented Gradients,HOG3D)特征作为运动特征和时空特征,提取出视频中运动人体区域的光流局部时空最大值和时空兴趣点的HOG3D特征作为特征向量;并分别对这两类特征向量基于词袋模型构建词库生成词频表,其中考虑到人体动作与空间位置的相关性,在光流局部时空最大值特征的词库构建中采用了基于人体结构特征的人体区域分块构建词库的改进方法;利用概率潜在语义主题模型PLAS对各类词频表进行训练和分类,将所得分类结果进行加权平均得到最终的动作识别结果。该方法弥补了两种特征的不足,经KTH和Weizmann两种动作数据库测试,能够达到较高的动作识别准确率。3)在基于双目视觉的人体姿态估计中,提出了一套基于双目视觉的人体姿态估计方法。该方法为了降低二维图像平面投影带来的遮挡问题和多义性问题对人体姿态估计结果造成的影响,引入人体空间深度信息提高人体姿态估计算法的精度。在采用平面模板两步法完成双目视觉系统的标定之后,为了获得人体的深度信息,本文提出了一种基于人体特征点的立体匹配与深度信息获取算法,该算法采用Haar特征与星型结构结合的方法检测人体特征点,并采用改进的基于特征点与区域相结合的立体匹配算法进行匹配,利用标定结果可以获得人体各特征点准确的空间三维坐标。该算法对特征匹配点进行两次定位且基于局部匹配算法,算法速度快准确率高。为了更准确地描述人体的姿态,本文提出了一种基于人体特征点空间三维信息的姿态估计算法,该算法以人体各关键特征点空间位置之间的关系为特征,采用基于样本索引的方法估计人体的具体姿态。该算法融入了深度信息,能够更精确地估计人体各种姿态。实验表明,本文提出的基于双目视觉的人体姿态估计方法能够准确获取人体3D姿态数据完成人体姿态的精确估计,无需人工干预及初始化,有效降低了遮挡和多义性问题的影响,提高了人体姿态估计的鲁棒性。