基于空时特征融合和深度学习的视频行为识别方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qqanjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频数据的爆炸式增长以及人工智能的发展,对建立完善的智能视频分析系统产生了迫切的需求,而作为其核心技术之一的行为识别技术自然成为研究的热点。人体行为识别技术在智能视频分析、智能交通系统以及医疗监护等领域具有重要的应用价值,研究前景广阔。深度学习方法凭借其出色的特征提取能力逐渐取代了表现乏力的基于人工特征的方法,在图像处理领域取得了极大的成功。行为识别基于视频,得益于在图像领域的成功应用,深度学习方法成为当前行为识别研究的主流方法。但是,视频不同于静态图像,除了包含有静态的空域信息外,还存在时序上的动作信息,因此如何能够有效融合空时域特征则是行为识别研究的难点。本文主要对基于深度学习和空时特征融合的视频行为识别方法进行研究,做出的主要工作包括:(1)提出一种基于3D残差网络与空时特征融合的行为识别算法。使用3D卷积可以同时在视频空间维度和时间维度操作,能够提取视频图像空域和时域上的特征。此外使用残差网络结构,利用其良好的网络特性,降低了网络训练的难度。考虑到2D残差网络对单帧图像提取到的空域信息对区分不同的行为有一定的作用,提出将3D残差网络提取的空时域特征与2D残差网络提取的纯空域特征进行融合,在保留原时序特征的同时,增强了所提特征对空域信息的表示能力。实验结果表明,该算法与现有一些算法相比,在行为识别准确率方面有一定程度的提高。(2)提出一种基于3D多纤维网络与时序线性编码的行为识别算法。利用3D多纤维模块取代3D卷积来对视频空时域特征进行提取,可有效降低网络中需要优化的参数量,降低网络模型的训练难度。此外,针对传统3D卷积类方法仅能提取视频局部片段空时域特征的弊端,提出在3D多纤维网络卷积层之后添加时序线性编码层,以融合来自同一个视频多个视频片段的空时域特征,从而获得长时间结构视频整体的空时域特征表示,提高行为识别准确率。(3)提出一种基于时域分割与(2+1)D卷积神经网络的行为识别算法。结合时域分割的思想,对视频连续帧进行稀疏采样,保持视频整体时序信息的同时,去除大量冗余。利用(2+1)D卷积取代3D卷积,提高了网络的非线性表达能力,此外,网络能够从采样得到视频图像中有效学习到长时间结构的空时特征表示,在保持高识别率的同时,提高了算法的效率。
其他文献
本文对质谱法(MS)、液相色谱质谱联用法(LC-MS)、毛细管电泳质谱联用(CE-MS)法、光谱分析法等在多肽检测中的最新进展进行了综述.质谱检测多肽最大的优势在于稳定性、重现性好,准确
以南美白对虾虾头为原料,研究利用正己烷-异丙醇混合溶剂提取虾头中的磷脂。以磷脂相对提取率为评价指标,在单因素试验的基础上进行正交试验,确定优化提取工艺条件为:正己烷与
目的 构建用于白念珠菌MXR1基因敲除的载体质粒,并通过Ura-Blaster策略敲除MXR1两条等位基因。方法 分别扩增白念珠菌MXR1基因ORF两侧上下游的片段,通过酶切与连接反应,将上
运用Multisim13.0仿真软件强大的电路仿真分析功能,对如何准确进行调谐放大器静态工作点设置进行探究。通过灵敏度分析定量地分析调谐放大器中影响静态工作点的元件;利用参数
目的 探讨基层医院居民健康档案工作的规范化管理,促进档案管理的健康发展。方法 基层医院居民健康档案工作的规范化管理质量的好坏直接关系到医院的健康发展,要充分认识到加
《九章》者,屈原被放江南以及被放之前所作也。其流离之苦、故国之思、见疏之痛、望君成空等哀绪尽收《九章》之中,故有“小离骚”之称。其情之哀、辞之切在屈原笔下舒展开来
目的:探讨无创呼吸机治疗慢阻肺合并呼吸衰竭的效果分析。方法:2018年4月-2019年4月收治慢阻肺合并呼吸衰竭患者100例,随机分为两组。对照组采用常规药物治疗;观察组在常规药
英国防损委员会(LPCB)近日对两部标准进行了更新,强调正确安装与维护防火门、百叶窗、防火/防烟隔板等问题的重要性。未按规定安装安全产品可能会导致在火灾发生时消防安全产
在日常生活中,需要心理咨询的儿童主要有以下几种: 多动症 是最常见的儿童心理疾病。这类孩子智力一般正常,但存在与实际年龄不相符合的注意力不集中、活动过多、冲动任性、
连铸中间包的钢水的液位测量环境恶劣和钢水上层覆盖保护渣层而导致钢水液位测量困难、测量准确度不高.针对此现状,本文提出了一种基于温场信息,利用计算机视觉测量实现的钢水液