基于深度网络时空一致性的视频事件识别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:meisck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频事件识别是指从视频中识别出事件的时空视觉模式,在智能监控、医疗看护、机器人视觉等诸多领域有着重要的应用前景,是计算机视觉领域的一个热点研究课题。视频数据具有数据量大、时序复杂、分辨率低、运动对象之间相互遮挡、同类事件之间差异大等特点,使得视频事件识别是一项非常有挑战性的任务。近年来,深度学习技术有力推动了计算机视觉领域的发展,基于深度学习的特征表达在视频事件识别领域取得了令人瞩目的性能。本文从视频中丰富的空间信息和时间轴上的运动信息入手,研究深度网络时空一致性建模方法,解决视频事件识别中的复杂背景下时空特征不一致、全局特征学习能力不够、对象遮挡导致网络不能捕获事件细节等问题,主要工作与贡献如下:(1)针对视频事件识别中的复杂背景下视频时空特征不一致的问题,研究局部和全局时空特征表达,提出了一种基于卷积网络时空特征图一致性的事件识别方法。在局部时空特征一致性方面,利用卷积层特征在网络传递过程中演进变化的特点,设计时空网络对等层对等特征图上的最大区域生长池化(Maximal Region Growing Pooling,MRGP)融合方法,得到时空融合通道。在全局时空特征表达方面,利用全局手工特征引导深度特征,采用密集轨迹池化时空融合通道、空间网络通道和时间网络通道,并构建三通道架构(Triple-channel)的融合方法。在VIRAT 1.0和VIRAT 2.0两个监控视频数据集上的实验表明,本文方法对于场景复杂、分辨率不高的监控视频事件有很好的识别性能。(2)为解决视频事件识别中复杂场景和时序下网络对视频全局特征学习能力不足问题,研究残差模块堆叠和优化函数构建,提出了一种基于深度残差递归网络时空一致性的事件识别方法。在残差模块堆叠研究中,首先设计了时空数据连接层,将时空特征数据经LSTM同步解析后形成时空数据连接单元,从而构成时空一致输入。然后将多个数据联接层再加恒等映射组成残差模块,最后堆叠多个残差模块以获得深度时空全局特征描述子——深度残差双单向DLSTM(Deep Residual Dual Unidirectional Double-LSTM,DRDU-DLSTM),提升视频事件全局特征学习能力。为了进一步优化识别结果,设计了基于双中心Loss的2C-softmax优化函数,以最大化类间距离的同时最小化类内间隔距离。在监控视频数据集VIRAT 1.0和VIRAT 2.0上的实验表明,本文提出的事件识别方法有很好的性能表现和稳定性。(3)为解决视频事件识别时场景不复杂但对象遮挡严重导致网络不能捕获事件细节的问题,研究帧内注意力机制和帧间长短时依赖关系,提出了一种基于层次化注意力嵌入的时空网络事件识别方法。对于帧内注意力提取,设计了层次化注意力模型,该模型包含对象注意力、全局注意力和注意力增强特征三个层级。由视觉语义引导生成第一层注意力——对象注意力,以捕获事件区域的对象;对象注意力特征和全景语义共同引导生成第二层注意力——全局注意力,以捕获全局信息和更多的遮挡对象细节;第三层实现注意力增强特征融合,将两种在全局和局部有互补关系的注意力增强特征联接后输入到递归网络。同时设计了两种捕获事件信息的策略:一种是帧间长短时依赖关系获取,另一种是运动信息长短时特征描述,两种策略形成时空架构。本文在CCV、VIRAT 1.0和VIRAT 2.0三个对象遮挡严重的视频事件识别数据集上对提出的方法进行了性能评价和分析。实验结果表明,利用带有层次化注意力的时空深度网络架构能够取得比现有视频事件识别方法更优秀的识别准确率。
其他文献
学位
分数阶微积分是对整数阶微积分理论的自然推广,它对函数进行分数阶微分运算和分数阶积分运算。使用分数阶微积分来描述一些物理系统,能够表现出更加准确和更加简洁的优势,因此分数阶控制系统的研究已成为学术界的热点之一。与此同时,在对实际系统进行数学建模的过程中,控制系统由于各种原因(如测量精度的限制、复杂条件的简化)不可避免会存在不确定性,不确定系统的分析与综合也一直是控制理论研究的一个重点。本文将讨论不确
近些年,低维结构光电转换器件如纳米线电池及二维材料器件因其独特的光电等性质而备受关注,有望在新一代柔性化、微纳化及可穿戴化光电器件中发挥重要作用。然而当前还存在着
馈赠交换作为一种社会现象,普遍存在于人类社会之中。然而,在不同的文化母体中显现的馈赠情景也不相同,同时,馈赠交换呈现出文化行为与经济行为两大特征。通过解读和分析馈赠
在最不发达经济体中,能源的重要性不可忽视。因为自从过去几十年以来,大多数这些不发达国家都面临严重的能源危机,导致其产生许多社会经济问题。在所有这些国家中,巴基斯坦就
在数学中,神经网络的学习能力可以看作是一个函数逼近问题。基于这一观点,我们可以将深度神经网络视为一个函数逼近器。在实际应用中,有许多深层网络模型基于概率生成模型进行分析,并将神经网络的学习能力看作是一个概率分布逼近问题,即深度神经网络的输出可以近似于某个随机变量的概率分布。本论文从神经网络的理论研究出发,以现有的理论、方法为基础,对受限玻尔兹曼机(RBM)和深度玻尔兹曼机(DBM)的逼近性进行了分
心率是一项极为重要的生理参数,被广泛应用于心率失常、心肌缺血、冠心病、高血压病、慢性心力衰竭等心血管类疾病的诊断和情绪检测中。目前市场上存在的专业心率检测设备都
背景和目的:异常脂质介导的肝内炎症-免疫调节紊乱相关的低度系统性炎性信号途径活化在非酒精性脂肪性肝病(NAFLD)的发生发展中占有重要地位。作为肝内代谢-免疫-炎症活化过
对比剂也被称为造影剂,是影像诊断与介入放射学必要的药物之一。在药物归类统计中虽属于小品种,但是近几年对比剂的市场份额在我国医药行业中属于增长较快的产品。作为最早进入中国对比剂市场的外资企业B公司,是全球对比剂的领导者,其在中国区对比剂的市场份额在近几年受到国产仿制药的冲击一直处于不断下滑的态势。产品需求预测的效果一直以来都不佳。由于在销售管理工作中缺乏定量的预测模型来进行需求预测,仅使用定性的预测
气体是人类生存发展必不可少的自然资源。随着社会与经济的发展,人们生活水平的提升,在商业、工业以及生活中需要更加清洁的能源气分,同时,有些气体组分又是一些重要的化学及