基于多源视觉信息特征描述与建模的行为识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hongyan1230
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频数据在大数据占据着主导地位,人类自身的活动又是视频数据中的高频内容,因此如何有效利用视觉信息对人的行为活动进行自动化地分析与识别成为了计算机视觉领域的关键问题。由于人的行为具有高度的表现多样性和语义复杂性,利用传统视觉观测数据对人体的运动特性进行表征进而对行为语义进行识别颇具挑战性。本文以多源视觉信息为基础,针对行为识别实际应用面临的难点,主要研究了复杂环境中鲁棒的个体动作识别、监控场景下具有时序演化的交互行为检测识别以及多人参与的复杂群组行为识别等问题,提出了相应的有效动作特征描述与行为建模识别方法。本文的贡献主要有如下三个方面:  本文研究了面向日常动作行为的鲁棒性动作特征描述与动作识别方法。传统的基于视觉颜色信息的动作识别因为受制于数据自身的属性限制,对复杂环境、表现多样的实际动作识别任务的适用性难以满足应用需求。引入对表征动作行为更具优势的深度信息观测,构建并公开发布了一个多数据源多视角的日常动作数据集,为面向解决实际问题的高效动作识别相关研究提供数据基础和评价平台。针对深度信息自身的特点和动作识别任务的需求,提出了一种基于时空局部显著特征点的深度特征描述方法,直接针对运动显著的局部区域进行比较性的深度数据特征刻画来生成稳定可靠的动作模式特征表达。进一步地,为了解决局部区块的稀疏性,增强对动作行为的描述能力,提出了一种可感知的密集局部特征描述方法。根据人类的认知机理来获取对理解动作语义有效的密集的局部数据区块,并通过信息感知规律增强比较编码的描述能力,提高最终动作识别的准确性。通过与目前领域内领先的特征描述方法进行对比实验,我们所提方法能够在相对真实复杂的动作数据上取得更好的动作识别性能,对不同观测视角引起的动作表现多样性也具有更好的鲁棒性。  本文对视频监控场景下特定动作行为的检测识别进行了研究,提出了基于时序信息的动作行为检测方法。利用行为发生过程中的时序关联关系,通过动作活动进行的时序约束信息,有效地表征动作行为的特质。针对具有显著行为表现特性的个体行为如奔跑,我们提出一种基于时序持续的异常值发现的行为检测方法,通过刻画个体行为属性在其运动场景中的空间显著性以及这种显著运动在时间上的持续性来检测所关注行为的发生。对于监控场景下更为复杂的、具有一定时间跨度的交互行为,我们提出了一种基于时序约束信息的序列学习行为检测方法。在对每个时刻所呈现的行为特征进行描述的基础上,以时间上的小邻域为单位引入时序约束关系进行特征重构,再使用结构化支持向量机算法建模整个行为发生的流程模式,用以在视频流中检测特定的交互行为。本文的方法在TRECVID-SED2010特定行为事件检测的性能评测中取得了领先的结果。  本文提出一种结合运动信息和表观信息的多人群组行为识别框架。为了有效地建模表达多个人参与的群组行为的语义信息,提出了多层次的多人群组行为语义模型,明确地从三种粒度上对行为语义进行建模,并通过统一的特征描述框架生成全面的、互补的群组行为模式描述。针对多人群组行为的运动特点,我们提出了基于运动轨迹的运动特征描述方法,通过高斯过程建模运动轨迹,利用概率表征方法把握群组行为中的个体运动不确定性。另一方面,我们还提出了基于视觉观感的群组行为表观特征描述方法,利用统计显著性的动作风格特征描述群组行为模式的视觉感受,通过群组整体空间形态的演变刻画全局行为模式的特有属性。综合三个层次上的运动和表观特征,通过多核学习方法进行有机融合得到全面有效的群组行为模式描述,提高行为识别的准确性。在多个数据集上的实验结果验证了所提方法的有效性;跨数据集行为识别的实验也表明了本文的方法具有不错的泛化能力和可应用性。
其他文献
近年来,随着互联网上文本数据的急剧增长,如何利用自然语言处理技术高效地对海量数据进行处理,成为人们关注的焦点。句法分析作为自然语言处理领域的基础技术,是对文本进行深入理
以Web3D为代表的虚拟现实技术,因具有浸没感、交互性和构想性等特点在医疗、军事、工业制造、教育、旅游等各领域得到了广泛应用。EAST(Experimental AdvancedSuperconducting
高阶多项式矩阵的行列式计算是符号计算中的一个重要研究课题。因其矩阵元往往是多变元高幂次多项式,故采用传统的子式展开或Gaussian消元法将带来巨大的中间表达式膨胀,从而导
多目标跟踪问题是计算机视觉领域的一个重要问题,涉及模式识别与智能系统、传感器、图像处理、统计与机器学习等多个领域的相关技术。多目标跟踪的主要任务是对视频序列中的多
ESL设计和验证是一种新兴的电子设计方法,它提供给软件和EDA工程师提供一个虚拟平台,用以进行硬件系统架构的探索和嵌入式软件程序的开发。通信系统是一个结构复杂的系统,在对原
随着智慧城市和平安城市的建设,以及摄像头成本的降低,越来越多的摄像头被部署到城市的大街小巷,这导致视频数据的爆炸式增长,从而对视频分析处理技术的需求也越来越急迫。在本文
随着互联网技术的飞速发展、智能手机等移动设备的广泛普及与社交网络的不断壮大,海量的图像数据在网络中传播并逐渐成为人们生活中不可或缺的主要信息媒介。不同于文字信息可
随着IT技术的发展,应用模式不断演变,它从最开始的本地应用到远程应用,再到虚拟应用和虚拟桌面,追求着更加灵活轻量的软件形态和更加方便快捷的软件交付途径。云计算环境下的新应
角膜水分监测对于许多角膜疾病的早期诊断具有重要的临床意义。目前角膜水分检测手段精确度极低且为单点检测。太赫兹波对水具有高灵敏性,因而太赫兹技术非常适用于角膜组织的
在云计算时代,网络文件存储面临海量数据的考验,面对此情况,Google和Amazon提出各自的解决方案。本文研究分析了Google海量存储系统的开源实现Hadoop分布式文件系统以及Amazon的