论文部分内容阅读
视觉人体行为分析是计算机视觉领域中的一个重要研究方向,它是通过计算机来实现对未知视频序列中的人体行为的自动分析,实现对视频中人体行为的行为类别预测、发生位置判断等目标。该问题不仅在智能监控、人机交互、医疗体育等领域有着巨大的应用前景,同时也具有重要的理论价值,对于促进相关研究领域的发展,如模式识别、机器学习等学科,都具有重要意义。 通常,视觉人体行为分析方法主要包括两个步骤:(1)构建表示模块,对视频中的人体行为进行表达;(2)构建识别模块,结合前一步中得到的视频表达来完成对视频内容的分析与人体行为的判断。由于视频中包含有丰富的背景信息,并且不同人的行为方式也各不相同,因此同时利用多种不同特征来联合构建视频表达并进而完成识别的方法逐渐显示出其优势。虽然利用不同的特征种类可以有效地刻画视频中人体行为的不同侧面的特性,从而可以得到较为全面和鲁棒的视频描述。但是,视频的底层特征在多数情况下只单纯的记录了视频中像素级的变化信息,无法表达视频中的中高层语义性信息,因此并不足以很好地区分视频中的目标行为信息与其他干扰信息。为此,本文一方面通过采用互补的多种特征对视频中的丰富信息进行刻画,同时研究利用概率分布的统计特性,来减小视频中干扰因素的影响,进而提高方法的鲁棒性。论文的主要工作和贡献如下: (1)提出一种嵌入多重随机性的表观信息与运动信息的融合算法。我们利用不同特征间的互补与冗余特性,构建随机特征子空间,形成对视频的互补性表示。同时,不同于传统方法中只利用特征本身的相似性进行识别,我们提出综合利用特征的时空结构信息及其概率分布的识别方法。在此过程中,一方面利用每个子空间中特征本身的相似性构建随机弱线性分类器,另一方面利用特征间的时空结构关系及样本的统计分布来完成对于样本类别的最终判别。最后,我们利用随机森林的框架来进行实现,并在多个具有不同复杂度的公开数据库上进行实验,验证了该方法的有效性与鲁棒性。 (2)提出一种融合多特征及其上下文信息的分层贝叶斯模型,并成功应用于人体行为识别。我们构建含有多组双层主题结构的分层概率图模型来挖掘与提取视频中不同方面与不同尺度的主题行为模式,并通过高层行为模式的概率分布来表达视频中的行为。具体来说,我们一方面利用特征的结构信息来分别构建区域级的局部行为模式与视频整体级的全局行为模式;另一方面,结合特征本身的相似性来进一步约束不同的行为模式,从而达到从视频底层特征,到局部区域行为模式,再到视频整体行为模式的提炼,进而完成对视频内容的语义挖掘与描述。最后,我们利用不同分布间的共轭特性,积分消去部分变量,推断出高效的CGS(Collapsed GibbsSampling)算法来完成模型的学习与推断,进而完成对视频中人体行为的识别。 (3)提出一种嵌入最大间隔机制的多特征分层贝叶斯模型并应用于行为识别。该方法将基于多特征的分层概率图模型的表示模块与基于最大间隔准则的识别模块通过最大熵判别分析的方法融合在一个统一的贝叶斯框架下,实现两个模块的联合学习与推断。另外,我们结合多任务学习机制,进一步实现多特征多类别的视觉人体行为识别。与通常将视频表示部分与识别部分分别独立学习的传统方法相比,在我们的模型中,由于表示模块与识别模块在一个统一的框架下联合学习,因此可以使两个模块相互促进实时校正,进而具有更强的表达力和判别力。最后,通过在多个流行的公开数据库上进行的多方面、多角度的对比实验,验证了该方法中各个模块及整体模型的有效性与性能的稳定性。 (4)提出一种基于高斯过程与多核学习的多特征分层贝叶斯模型,并应用于行为识别。区别于传统方法中假设数据以某种形式可分而假设判别函数具有某种固定的参数形式,我们引入基于高斯过程的非参数方法,使我们的模型能够对任意形式的判别函数进行建模,从而不局限于线性可分的情形,使模型具有更广泛的适用性。同时,我们引入最大间隔机制以最小化分类的期望损失,进一步提高模型的判别性。最后,我们将高斯过程分类与最大间隔准则统一起来,形成一个统一的贝叶斯后验求解问题进行学习与推断。与传统的对每种特征单独处理的方法相比,我们从多个角度实现了特征间的融合,同时通过基于高斯过程的非参数方法与判别性准则的结合,进一步引入提高了模型的判别力和鲁棒性。最后,我们在公开的视频行为数据库上验证了我们方法的有效性。