论文部分内容阅读
随着视频数据的快速增长,如何对视频数据进行有效地管理成为亟需解决的问题,其中对视频中人的行为进行识别是其关键技术之一。视频中人的行为识别在人机交互、智能监控和基于内容的检索方面有着广泛的应用价值。因此,行为识别成为近年来的研究热点之一。由于该领域的迅猛发展,已有的研究工作已经基本解决了简单场景下(单一行为、简单背景、无其他运动干扰)的行为识别这一问题。近年来,研究工作的重点从简单场景下的行为识别问题过渡到复杂场景下的行为识别问题。复杂场景中的行为识别具有丰富的视角变化、较多的背景运动噪声以及多个目标运动等特点,这些特点造成了复杂场景下难以获得鲁棒行为表示的问题。针对这个问题,本文进行了深入的研究。本文的具体研究工作可归纳如下: 1)本文研究了基于共生关系建模的行为识别方法。针对局部特征之间以及局部特征与视角特征之间关系的共性,即共生关系,本文提出两种方法分别对局部特征间的时间约束关系,以及局部特征与视角特征之间同时出现的约束关系进行建模。首先,考虑到局部特征之间时间上的共生关系,本文提出一种基于局部特征共生关系建模的行为识别方法。该方法对局部特征间丰富的时间关系进行了编码,并刻画了行为的细节信息。实验结果表明该方法在行为识别中的有效性。其次,考虑到视角特征对局部特征的影响,本文提出一种对局部特征与视角特征之间共生关系进行建模的方法,该模型在一定程度上克服了复杂场景下由于视角变化所带来的局部特征变化的影响,提升了对视角变化的鲁棒性,并提高了复杂场景下行为识别的性能。 2)本文研究了局部运动块在行为表示和行为识别中的作用,并提出一种基于中层特征:局部运动块的行为表示。受目标检测中局部图像块的启发,局部运动块定义为局部特征在一个局部时空区域内的排列。它反映了目标的一部分在一个局部时空区域内的运动。通过局部运动块,本文将行为表示成这些局部运动块的稀疏线性组合。由于考虑了局部特征之间时空排列的统计特性,该方法能够有效地对背景噪声进行抑制。除此之外,由于背景噪声不能够被局部运动块线性表示,因此大部分的背景噪声被忽略。本文利用稀疏表示的框架获得了行为的中层特征表示,提升了对背景噪声的鲁棒性,并提高了系统性能。 3)本文研究了局部运动块之间的时间关系,并提出一种基于多示例马尔科夫模型的行为识别方法。该方法将局部运动块之间的时间相继的关系看作局部运动块的状态转移,并通过对状态转移的编码来对局部运动块之间的时间关系进行编码。与传统基于马尔科夫模型的方法相比,本文除了对局部运动块之间相邻的时间关系进行编码,还利用时间金字塔对局部运动块之间长距离的时间关系进行编码。由于局部运动块选择的不确定性,本文利用多示例学习的框架从多条马尔科夫链的行为表示中选择一条具有判别能力的马尔科夫链来表示行为。鉴于复杂场景下包含大量的背景运动噪声,本文提出一种基于显著性区域的背景噪声抑制方法。该方法通过对视频帧中的显著性目标进行估计获得显著性区域图,并通过该图对背景噪声进行抑制。实验结果表明,本文提出的方法能够有效处理复杂场景下的行为识别。 4)本文研究了基于姿态估计的行为识别方法。本文将人体划分成多个具有物理意义的部件,在对部件外观以及部件之间的空间先验建模的基础上,提出一种基于颜色对称先验的姿态估计方法。传统的基于空间先验的方法将部件和部件之间的空间先验形成树的结构。在进行部件位置的推断时,传统方法能够利用消息传递的方法快速地估计部件的位置。本文在传统树结构模型的基础上加入了额外的颜色对称结构,这使得该模型形成具有环形的结构。为了解决具有环形结构模型的推断问题,本章提出一种基于分层消息传递的模型推断算法来估计部件的位置。实验结果表明该模型优于只利用部件之间空间先验的方法。在姿态估计的基础上,本文将行为表示成部件在空间的排列情况并进行行为识别,实验结果表明该模型提高了复杂场景下行为识别的性能,并且该方法能够有效地处理复杂场景中出现多个人运动的情况。 总的来说,本文针对复杂场景中行为识别的难点进行了研究:第三章主要针对复杂场景下局部特征的时空关系在行为表示中的作用问题、以及复杂场景下视角变化的问题进行了研究。第四章主要针对复杂场景下背景噪声的问题以及中层特征在行为表示中的作用问题进行了研究。第五章主要针对复杂场景下背景噪声的问题以及中层特征之间时间关系在行为表示中的作用问题进行了研究。第六章主要针对复杂场景下姿态估计问题以及基于姿态估计的行为识别问题进行了有益的探索,并为复杂场景下多个人运动的问题提供了一种有效的解决方案。