基于多特征概率图模型的视觉人体行为识别

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:fenghaiweiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉人体行为分析是计算机视觉领域中的一个重要研究方向,它是通过计算机来实现对未知视频序列中的人体行为的自动分析,实现对视频中人体行为的行为类别预测、发生位置判断等目标。该问题不仅在智能监控、人机交互、医疗体育等领域有着巨大的应用前景,同时也具有重要的理论价值,对于促进相关研究领域的发展,如模式识别、机器学习等学科,都具有重要意义。  通常,视觉人体行为分析方法主要包括两个步骤:(1)构建表示模块,对视频中的人体行为进行表达;(2)构建识别模块,结合前一步中得到的视频表达来完成对视频内容的分析与人体行为的判断。由于视频中包含有丰富的背景信息,并且不同人的行为方式也各不相同,因此同时利用多种不同特征来联合构建视频表达并进而完成识别的方法逐渐显示出其优势。虽然利用不同的特征种类可以有效地刻画视频中人体行为的不同侧面的特性,从而可以得到较为全面和鲁棒的视频描述。但是,视频的底层特征在多数情况下只单纯的记录了视频中像素级的变化信息,无法表达视频中的中高层语义性信息,因此并不足以很好地区分视频中的目标行为信息与其他干扰信息。为此,本文一方面通过采用互补的多种特征对视频中的丰富信息进行刻画,同时研究利用概率分布的统计特性,来减小视频中干扰因素的影响,进而提高方法的鲁棒性。论文的主要工作和贡献如下:  (1)提出一种嵌入多重随机性的表观信息与运动信息的融合算法。我们利用不同特征间的互补与冗余特性,构建随机特征子空间,形成对视频的互补性表示。同时,不同于传统方法中只利用特征本身的相似性进行识别,我们提出综合利用特征的时空结构信息及其概率分布的识别方法。在此过程中,一方面利用每个子空间中特征本身的相似性构建随机弱线性分类器,另一方面利用特征间的时空结构关系及样本的统计分布来完成对于样本类别的最终判别。最后,我们利用随机森林的框架来进行实现,并在多个具有不同复杂度的公开数据库上进行实验,验证了该方法的有效性与鲁棒性。  (2)提出一种融合多特征及其上下文信息的分层贝叶斯模型,并成功应用于人体行为识别。我们构建含有多组双层主题结构的分层概率图模型来挖掘与提取视频中不同方面与不同尺度的主题行为模式,并通过高层行为模式的概率分布来表达视频中的行为。具体来说,我们一方面利用特征的结构信息来分别构建区域级的局部行为模式与视频整体级的全局行为模式;另一方面,结合特征本身的相似性来进一步约束不同的行为模式,从而达到从视频底层特征,到局部区域行为模式,再到视频整体行为模式的提炼,进而完成对视频内容的语义挖掘与描述。最后,我们利用不同分布间的共轭特性,积分消去部分变量,推断出高效的CGS(Collapsed GibbsSampling)算法来完成模型的学习与推断,进而完成对视频中人体行为的识别。  (3)提出一种嵌入最大间隔机制的多特征分层贝叶斯模型并应用于行为识别。该方法将基于多特征的分层概率图模型的表示模块与基于最大间隔准则的识别模块通过最大熵判别分析的方法融合在一个统一的贝叶斯框架下,实现两个模块的联合学习与推断。另外,我们结合多任务学习机制,进一步实现多特征多类别的视觉人体行为识别。与通常将视频表示部分与识别部分分别独立学习的传统方法相比,在我们的模型中,由于表示模块与识别模块在一个统一的框架下联合学习,因此可以使两个模块相互促进实时校正,进而具有更强的表达力和判别力。最后,通过在多个流行的公开数据库上进行的多方面、多角度的对比实验,验证了该方法中各个模块及整体模型的有效性与性能的稳定性。  (4)提出一种基于高斯过程与多核学习的多特征分层贝叶斯模型,并应用于行为识别。区别于传统方法中假设数据以某种形式可分而假设判别函数具有某种固定的参数形式,我们引入基于高斯过程的非参数方法,使我们的模型能够对任意形式的判别函数进行建模,从而不局限于线性可分的情形,使模型具有更广泛的适用性。同时,我们引入最大间隔机制以最小化分类的期望损失,进一步提高模型的判别性。最后,我们将高斯过程分类与最大间隔准则统一起来,形成一个统一的贝叶斯后验求解问题进行学习与推断。与传统的对每种特征单独处理的方法相比,我们从多个角度实现了特征间的融合,同时通过基于高斯过程的非参数方法与判别性准则的结合,进一步引入提高了模型的判别力和鲁棒性。最后,我们在公开的视频行为数据库上验证了我们方法的有效性。
其他文献
本文以国家十五‘863’课题“月球探测机器人智能信息处理与导航技术研究”为背景,重点研究了月球探测机器人导航关键技术。对机器人目前已存在的导航体系结构进行了详细分析
肺癌是世界上最常见的恶性肿瘤,由于其高致死率,被列为癌症第一杀手。它的早期发现和治疗能够大大提高患者的存活率和生活质量。通常,由于肺癌的早期表现形式是肺结节,因而肺结节
口语自动翻译是语音、语言处理技术重要的应用领域之一,开展这项研究不仅具有重要的理论研究意义,而且具有极大实用价值。   翻译知识自动获取是口语翻译系统中的关键技术之
在计算机视觉和机器学习等领域,特征表达是最核心的研究内容之一。特征学习尤其是深度学习模型的出现,打破了计算机解决视觉问题的一般流程(特征+分类器),将特征表达和最后的推理
信息技术的迅猛发展正深刻改变着人们的生活方式、工作方式,对企业信息化和自动化领域的发展也产生了巨大的影响。在企业信息化和自动化领域,计算机技术、控制技术、网络和通
嵌入式远程监控系统是信息网络与工业控制网络结合的产物,它通过现场控制网络、企业内部网和Internet,把分布于各地的智能仪表系统连接起来,实现与远程控制设备的信息交互,完成远
随着计算机、微电子、通信和网络技术的发展,工业控制领域发生着深刻的变化,新的工业信息结构形成,现场总线技术和工业控制产品不断涌现,自动化系统对大范围信息共享的需求越
电力系统正朝着大容量、超高压、远距离方向发展,电网的结构越来越复杂。这些特点给系统的规划设计、生产运行、监视控制、维护管理带来了一系列新课题。而许多不确定的、非精确的因素,常常使电力系统的故障分析和诊断变得很困难,这就需要故障录波分析装置对保护动作进行总体的判断和评判。本文围绕微机故障录波装置的研制和开发过程,分析了现有故障录波装置的基本情况和主要技术参数,将DSP、GPS、以太网等先进的技术应用
人工神经网络、小波分析和遗传算法的研究是当代信息科学技术的前沿和热点,对于复杂非线性系统辨识和预测具有重要的理论和应用价值。本文在深入研究小波分析、人工神经网络
近些年来兴起了一大批社交网站和图像分享网站例如Flickr、Facebook,这些网站鼓励用户上传图片并给图片打上标签用于描述图片内容,因此拥有了海量的网络图像资源,并且呈指数级增