论文部分内容阅读
随着信息技术的飞速发展,在过去的几十年里,我们见证了视频数据在生活中无限泛滥。在很多领域,能够自动理解视频内容就变得越来越重要。人的行为是视频内容中的重要组成部分,已经存在很多重要的研究工作是对视频中人的行为进行分析。但是,已提出的大部分研究方法都是基于简单场景特性的数据的研究,很难被应用到实际场景下人体行为的分析。在本文中,我们研究了实际场景下的人体行为识别,包括三个部分,多模态的人体行为识别方法;基于时空兴趣点选择的人体行为识别;基于局部特征全局背景的人体行为识别。传统的人体行为识别的方法在动态背景等因素的影响下,已经不能满足复杂场景下人体行为识别的需要。我们通过对复杂场景下人体行为的特性进行分析,发现实际场景中的声音和行为有一定的对应性,例如电话铃声会伴随接电话的行为,因此,将实际场景中的声音信息加入到人体行为识别中,形成多模态(声音模态和视觉模态)的人体行为识别系统。另外,实际场景下人体行为所对应的声音信息存在多样性的特点,我们使用推广的多核学习的方法来挖掘更有效的声音特征。在最终决策时,我们使用模糊积分融合的方法,对声音和视觉两个模态的识别结果进行了决策层的融合。实验结果证明了我们提出的多模态人体行为识别系统能够得到更好的识别性能,同时也揭示了声音背景是如何帮助有效识别实际场景下的人体行为。时空兴趣点已经被成功地应用于人体行为识别中,然而在实际场景中获取的大部分兴趣点与表征实际场景下的特定人体行为是无关的。因此,本文提出了一种删除无关时空兴趣点的方法,从而达到降低计算量并提高识别性能的目的。基于对注意机制的感知原理的分析,视觉显著性能够帮助定位视觉中的行为主体,因此我们根据显著图来选择相关的时空兴趣点,将未落入显著区域的兴趣点认定为无关的噪声点删除。实验结果证明了我们提出的方法可以减少计算量,并且能够提高系统的识别性能。实际场景下的人体行为存在多样性的特点,因此如何对实际场景下的人体行为进行表征,就成了一个极具挑战性的研究课题。基于Bag-of-features模型的人体行为识别系统将人体行为表征成基于行为视频中关键点局部特征的分布。因此,用来表达各种关键点的局部特征相应地被提出。但是,这些局部特征却没有对关键点之间结构化的位置关系进行表达。在本文中,我们提出了使用形状背景描述符来表达这种结构化的信息,每个关键点由局部视觉属性,以及关键点相对于其他关键点之间结构化的全局背景来共同表征。实验结果证明了,我们提出的加入结构化信息的行为表征方法,在实际场景下具有更强的表征能力。另外,我们也研究了不同的特征描述符(SIFT描述符、HOGHOF描述符、形状背景描述符)对实际场景下的人体行为的表征能力,同时发现,在致密的关键点下使用我们提出的结构化的全局背景能够取得更好的识别结果。本文的主要创新点可以总结如下:(1)本文提出了利用背景声音信息形成多模态的人体行为识别系统,更有效地对实际场景下的人体行为进行识别,本文的工作是首次使用多模态的特征来对实际场景下的人体行为进行识别。(2)本文利用推广的多核学习的方法,从大量的声音特征中挑选出能够对实际场景下的人体行为进行更有效表征的声音特征。(3)本文提出了利用模糊积分融合的方法,在决策层对多模态的信息进行融合,取得了更好的识别性能。(4)受到人的感知原理的启发,基于视觉注意机制的显著图被提取,由于视觉显著性能够帮助定位行为的主体,因此可以用来确定图像中的相关兴趣点,未落入显著区域的兴趣点被视为是无关兴趣点而被删除。(5)本文提出了利用形状背景描述符来描述局部关键点的结构化的位置关系,因此,每个关键点可以被描述成它的局部视觉属性,以及关键点相对于其他关键点之间结构化的全局背景的共同表达。