基于多源视觉信息特征描述与建模的行为识别技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：hongyan1230

【摘要】

：

视频数据在大数据占据着主导地位，人类自身的活动又是视频数据中的高频内容，因此如何有效利用视觉信息对人的行为活动进行自动化地分析与识别成为了计算机视觉领域的关键问题。

【作者】

：

成仲炜

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

行为识别多源视觉信息特征描述鲁棒性语义模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视频数据在大数据占据着主导地位，人类自身的活动又是视频数据中的高频内容，因此如何有效利用视觉信息对人的行为活动进行自动化地分析与识别成为了计算机视觉领域的关键问题。由于人的行为具有高度的表现多样性和语义复杂性，利用传统视觉观测数据对人体的运动特性进行表征进而对行为语义进行识别颇具挑战性。本文以多源视觉信息为基础，针对行为识别实际应用面临的难点，主要研究了复杂环境中鲁棒的个体动作识别、监控场景下具有时序演化的交互行为检测识别以及多人参与的复杂群组行为识别等问题，提出了相应的有效动作特征描述与行为建模识别方法。本文的贡献主要有如下三个方面:　　本文研究了面向日常动作行为的鲁棒性动作特征描述与动作识别方法。传统的基于视觉颜色信息的动作识别因为受制于数据自身的属性限制，对复杂环境、表现多样的实际动作识别任务的适用性难以满足应用需求。引入对表征动作行为更具优势的深度信息观测，构建并公开发布了一个多数据源多视角的日常动作数据集，为面向解决实际问题的高效动作识别相关研究提供数据基础和评价平台。针对深度信息自身的特点和动作识别任务的需求，提出了一种基于时空局部显著特征点的深度特征描述方法，直接针对运动显著的局部区域进行比较性的深度数据特征刻画来生成稳定可靠的动作模式特征表达。进一步地，为了解决局部区块的稀疏性，增强对动作行为的描述能力，提出了一种可感知的密集局部特征描述方法。根据人类的认知机理来获取对理解动作语义有效的密集的局部数据区块，并通过信息感知规律增强比较编码的描述能力，提高最终动作识别的准确性。通过与目前领域内领先的特征描述方法进行对比实验，我们所提方法能够在相对真实复杂的动作数据上取得更好的动作识别性能，对不同观测视角引起的动作表现多样性也具有更好的鲁棒性。　　本文对视频监控场景下特定动作行为的检测识别进行了研究，提出了基于时序信息的动作行为检测方法。利用行为发生过程中的时序关联关系，通过动作活动进行的时序约束信息，有效地表征动作行为的特质。针对具有显著行为表现特性的个体行为如奔跑，我们提出一种基于时序持续的异常值发现的行为检测方法，通过刻画个体行为属性在其运动场景中的空间显著性以及这种显著运动在时间上的持续性来检测所关注行为的发生。对于监控场景下更为复杂的、具有一定时间跨度的交互行为，我们提出了一种基于时序约束信息的序列学习行为检测方法。在对每个时刻所呈现的行为特征进行描述的基础上，以时间上的小邻域为单位引入时序约束关系进行特征重构，再使用结构化支持向量机算法建模整个行为发生的流程模式，用以在视频流中检测特定的交互行为。本文的方法在TRECVID-SED2010特定行为事件检测的性能评测中取得了领先的结果。　　本文提出一种结合运动信息和表观信息的多人群组行为识别框架。为了有效地建模表达多个人参与的群组行为的语义信息，提出了多层次的多人群组行为语义模型，明确地从三种粒度上对行为语义进行建模，并通过统一的特征描述框架生成全面的、互补的群组行为模式描述。针对多人群组行为的运动特点，我们提出了基于运动轨迹的运动特征描述方法，通过高斯过程建模运动轨迹，利用概率表征方法把握群组行为中的个体运动不确定性。另一方面，我们还提出了基于视觉观感的群组行为表观特征描述方法，利用统计显著性的动作风格特征描述群组行为模式的视觉感受，通过群组整体空间形态的演变刻画全局行为模式的特有属性。综合三个层次上的运动和表观特征，通过多核学习方法进行有机融合得到全面有效的群组行为模式描述，提高行为识别的准确性。在多个数据集上的实验结果验证了所提方法的有效性;跨数据集行为识别的实验也表明了本文的方法具有不错的泛化能力和可应用性。

其他文献

基于依存关系的短语结构句法分析与词对齐方法研究及实现

近年来，随着互联网上文本数据的急剧增长，如何利用自然语言处理技术高效地对海量数据进行处理，成为人们关注的焦点。句法分析作为自然语言处理领域的基础技术，是对文本进行深入理

学位

词对齐短语结构句法分析依存关系依存连贯性自然语言处理

基于Web3D的虚拟EAST系统

以Web3D为代表的虚拟现实技术，因具有浸没感、交互性和构想性等特点在医疗、军事、工业制造、教育、旅游等各领域得到了广泛应用。EAST(Experimental AdvancedSuperconducting

学位

超导托卡马克虚拟现实诊断系统交互控制Web浏览器

若干离散最优化问题的算法及相关不等式

高阶多项式矩阵的行列式计算是符号计算中的一个重要研究课题。因其矩阵元往往是多变元高幂次多项式，故采用传统的子式展开或Gaussian消元法将带来巨大的中间表达式膨胀，从而导

学位

符号计算数值并行插值法高阶多项式矩阵离散Fourier变换

基于RGB-D数据的多目标跟踪方法研究

多目标跟踪问题是计算机视觉领域的一个重要问题，涉及模式识别与智能系统、传感器、图像处理、统计与机器学习等多个领域的相关技术。多目标跟踪的主要任务是对视频序列中的多

学位

目标跟踪颜色深度数据深度结构关联模型分层图模型拓扑能量最小化模型动态拓扑图模型

基于云计算平台的并行ESL仿真和通信仿真架构与方法研究

ESL设计和验证是一种新兴的电子设计方法，它提供给软件和EDA工程师提供一个虚拟平台，用以进行硬件系统架构的探索和嵌入式软件程序的开发。通信系统是一个结构复杂的系统，在对原

学位

云计算并行ESL仿真通信仿真软件用户管理应用程序开发

基于判别性特征的动作预测

随着智慧城市和平安城市的建设，以及摄像头成本的降低，越来越多的摄像头被部署到城市的大街小巷，这导致视频数据的爆炸式增长，从而对视频分析处理技术的需求也越来越急迫。在本文

学位

视频分析动作预测判别性特征直方图自动补全框架

手机拍摄文档图像质量评价及汉字识别方法

随着互联网技术的飞速发展、智能手机等移动设备的广泛普及与社交网络的不断壮大，海量的图像数据在网络中传播并逐渐成为人们生活中不可或缺的主要信息媒介。不同于文字信息可

学位

文档图像质量评价字符识别手机拍摄

基于远程虚拟环境的应用推送技术研究

随着IT技术的发展，应用模式不断演变，它从最开始的本地应用到远程应用，再到虚拟应用和虚拟桌面，追求着更加灵活轻量的软件形态和更加方便快捷的软件交付途径。云计算环境下的新应

学位

远程虚拟环境远程计算应用抽取用户接口系统响应时间

快速扫描太赫兹时域光谱系统及角膜组织的太赫兹检测研究

角膜水分监测对于许多角膜疾病的早期诊断具有重要的临床意义。目前角膜水分检测手段精确度极低且为单点检测。太赫兹波对水具有高灵敏性，因而太赫兹技术非常适用于角膜组织的

学位

角膜疾病水分监测太赫兹波时域光谱系统

一致性哈希存储系统容灾与负载适应研究

在云计算时代，网络文件存储面临海量数据的考验，面对此情况，Google和Amazon提出各自的解决方案。本文研究分析了Google海量存储系统的开源实现Hadoop分布式文件系统以及Amazon的

学位

云计算网络文件存储一致性哈希存储系统冗余数据

基于多源视觉信息特征描述与建模的行为识别技术研究

与本文相关的学术论文