复杂场景中行为识别的关键技术及方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:joui248369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着视频数据的快速增长,如何对视频数据进行有效地管理成为亟需解决的问题,其中对视频中人的行为进行识别是其关键技术之一。视频中人的行为识别在人机交互、智能监控和基于内容的检索方面有着广泛的应用价值。因此,行为识别成为近年来的研究热点之一。由于该领域的迅猛发展,已有的研究工作已经基本解决了简单场景下(单一行为、简单背景、无其他运动干扰)的行为识别这一问题。近年来,研究工作的重点从简单场景下的行为识别问题过渡到复杂场景下的行为识别问题。复杂场景中的行为识别具有丰富的视角变化、较多的背景运动噪声以及多个目标运动等特点,这些特点造成了复杂场景下难以获得鲁棒行为表示的问题。针对这个问题,本文进行了深入的研究。本文的具体研究工作可归纳如下:  1)本文研究了基于共生关系建模的行为识别方法。针对局部特征之间以及局部特征与视角特征之间关系的共性,即共生关系,本文提出两种方法分别对局部特征间的时间约束关系,以及局部特征与视角特征之间同时出现的约束关系进行建模。首先,考虑到局部特征之间时间上的共生关系,本文提出一种基于局部特征共生关系建模的行为识别方法。该方法对局部特征间丰富的时间关系进行了编码,并刻画了行为的细节信息。实验结果表明该方法在行为识别中的有效性。其次,考虑到视角特征对局部特征的影响,本文提出一种对局部特征与视角特征之间共生关系进行建模的方法,该模型在一定程度上克服了复杂场景下由于视角变化所带来的局部特征变化的影响,提升了对视角变化的鲁棒性,并提高了复杂场景下行为识别的性能。  2)本文研究了局部运动块在行为表示和行为识别中的作用,并提出一种基于中层特征:局部运动块的行为表示。受目标检测中局部图像块的启发,局部运动块定义为局部特征在一个局部时空区域内的排列。它反映了目标的一部分在一个局部时空区域内的运动。通过局部运动块,本文将行为表示成这些局部运动块的稀疏线性组合。由于考虑了局部特征之间时空排列的统计特性,该方法能够有效地对背景噪声进行抑制。除此之外,由于背景噪声不能够被局部运动块线性表示,因此大部分的背景噪声被忽略。本文利用稀疏表示的框架获得了行为的中层特征表示,提升了对背景噪声的鲁棒性,并提高了系统性能。  3)本文研究了局部运动块之间的时间关系,并提出一种基于多示例马尔科夫模型的行为识别方法。该方法将局部运动块之间的时间相继的关系看作局部运动块的状态转移,并通过对状态转移的编码来对局部运动块之间的时间关系进行编码。与传统基于马尔科夫模型的方法相比,本文除了对局部运动块之间相邻的时间关系进行编码,还利用时间金字塔对局部运动块之间长距离的时间关系进行编码。由于局部运动块选择的不确定性,本文利用多示例学习的框架从多条马尔科夫链的行为表示中选择一条具有判别能力的马尔科夫链来表示行为。鉴于复杂场景下包含大量的背景运动噪声,本文提出一种基于显著性区域的背景噪声抑制方法。该方法通过对视频帧中的显著性目标进行估计获得显著性区域图,并通过该图对背景噪声进行抑制。实验结果表明,本文提出的方法能够有效处理复杂场景下的行为识别。  4)本文研究了基于姿态估计的行为识别方法。本文将人体划分成多个具有物理意义的部件,在对部件外观以及部件之间的空间先验建模的基础上,提出一种基于颜色对称先验的姿态估计方法。传统的基于空间先验的方法将部件和部件之间的空间先验形成树的结构。在进行部件位置的推断时,传统方法能够利用消息传递的方法快速地估计部件的位置。本文在传统树结构模型的基础上加入了额外的颜色对称结构,这使得该模型形成具有环形的结构。为了解决具有环形结构模型的推断问题,本章提出一种基于分层消息传递的模型推断算法来估计部件的位置。实验结果表明该模型优于只利用部件之间空间先验的方法。在姿态估计的基础上,本文将行为表示成部件在空间的排列情况并进行行为识别,实验结果表明该模型提高了复杂场景下行为识别的性能,并且该方法能够有效地处理复杂场景中出现多个人运动的情况。  总的来说,本文针对复杂场景中行为识别的难点进行了研究:第三章主要针对复杂场景下局部特征的时空关系在行为表示中的作用问题、以及复杂场景下视角变化的问题进行了研究。第四章主要针对复杂场景下背景噪声的问题以及中层特征在行为表示中的作用问题进行了研究。第五章主要针对复杂场景下背景噪声的问题以及中层特征之间时间关系在行为表示中的作用问题进行了研究。第六章主要针对复杂场景下姿态估计问题以及基于姿态估计的行为识别问题进行了有益的探索,并为复杂场景下多个人运动的问题提供了一种有效的解决方案。  
其他文献
面向仪器作为传统自动测试系统(Automatic Test System,ATS)测试环境的重要开发特性,导致测试系统具有较差的通用性,具体表现在测试仪器不可互换、测试程序集(Test Program S
近代医学影像技术的提出使得医生可以在无创伤的情况下观察病人体内的变化。作为出于临床诊断的需求提出的技术,从诞生开始,医学影像技术的核心任务之一就是对医学图像的显示。
植物在外界环境作用下会做出不同的反应,即可塑性。植物的可塑性表现在能够改变自身的结构和功能,以适应环境的变化。此外,农学上开展了作物“理想株型”的研究,以株型改良为目标
印制电子技术作为一个多学科高度交叉的新兴前沿研究热点,正受到愈来愈多人的广泛关注和青睐。当前印制电子技术广阔的应用前景已经凸显。而在不久的将来,随着技术的进一步成熟
控制领域中的一大难点就是测量与产品质量非常相关的但是难以直接测量的参数。这个问题未能得到有效解决的原因可能是出于对经济成本的考虑,也可能是传统的技术无法实现直接
该文是在国家自然科学基金项目:"电梯交通系统的智能控制及最优配置研究"支持下进行的研究.电梯系统的智能群控所要解决的是一个复杂的、具有非线性、不确定性目标随机系统的
单模态情感识别由于受到单一模态情感特征的限制,识别率并没有得到较大的提高。近年来,多模态情感识别突破了这一限制,在情感识别过程中,引入了多种模态的情感特征进行融合,
该文的工作是对人工神经网络理论、软件实现方法和应技术进行深入研究,在此基础 上以VB和MATLAB相结合作为开发工具,构建一个适合于国内高校环境的神经网络CAI课件NNDA V2.0
随着移动互联网的迅猛发展及可拍照智能终端的广泛普及,自动理解用户拍摄的图像或视频中的高层语义信息具有巨大的应用前景,而图像中的文字直接携带了语义信息,因此数字图像中的
导致中枢神经系统损伤的主要原因包括脑卒中和脊髓损伤,它们通常会造成患者偏瘫或截瘫,进而引发内脏器官功能障碍以及一系列的并发症。大量临床研究表明,通过康复训练可使中枢神