基于空时特征建模的行为识别方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:simple69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展和移动成像设备的普及,视频已经成为人们生活中获取信息的重要途径。人体行为识别是计算机视觉和视频处理领域的重要研究内容之一,是视频分析和理解的基础,已广泛应用于智能监控、视频检索、军事侦察、人机交互和无人驾驶等领域。传统的行为识别方法主要依靠人工设计特征对视频中行为进行描述,存在适用性和鲁棒性较差等不足。近年来,随着计算机运算能力的提升,基于深度特征的建模方法在行为识别领域受到了广泛的关注。深度特征能够通过深度神经网络在对视频中人体行为建模过程中实现自适应学习,具有更广的应用范围和更强的鲁棒性,已成为目前行为识别领域最有效的手段。然而,深度神经网络在建模过程中仍存在一些关键问题需要解决,包括网络对人体行为表示能力不足、预训练过度依赖有标签数据和识别实时性差等问题。本论文以深度神经网络理论为基础,研究了基于空时特征建模的行为识别方法,有效提高了网络对行为的识别性能。论文的主要研究成果如下:1.研究了网络对行为表示能力不足的问题。识别人体行为时,最具判别力的动作通常稀疏地分布于视频的不同时刻和区域,如果网络无差别地对待不同的视频帧,将会引入噪声干扰,导致特征对行为的表示能力下降。本文提出一种基于空时注意力的行为识别算法。该算法通过双流卷积神经网络提取视频的静态特征和动态特征,并利用多层级联卷积长短时记忆单元对特征进行空时建模,然后通过空时注意力模块引导网络在建模过程中更加关注重要的时刻和区域,有效增强了网络对行为的表示能力,提升了行为识别性能。2.研究了网络的预训练过度依赖有标签数据问题。在人体行为识别任务中,通常利用大规模有标签数据集对网络进行预训练。为利用大量易获取的无标签视频完成网络预训练,提出一种基于互信息最大化的自监督学习算法。该算法首先通过最大化片段互信息,指导网络学习视频中不同片段间的联系。然后,为避免网络在最大化互信息过程中只关注视频的背景,根据二维和三维卷积神经网络的特点,分别提出了运动互信息最大化和局部互信息最大化方法。最后,利用互信息最大化的过程分别完成对二维和三维卷积神经网络的预训练。该算法有效提升了网络的识别性能,减少了网络预训练对有标签数据的依赖程度。3.研究了自监督学习算法普适性差的问题。基于互信息最大化的自监督学习算法针对二维和三维卷积神经网络分别应用了不同的互信息最大化方法,导致算法对不同类型的网络适应性差,同时这问题也普遍存在于现有的自监督学习算法中。本文提出一种基于视频伪标签的自监督学习算法。该算法首先提取视频不同模态信息的特征,利用所有提取到的特征构建特征集合。然后,对特征集合中的特征进行聚类,利用聚类结果生成视频伪标签。最后,利用生成的伪标签对输入为不同模态的网络同时进行训练,指导网络学习不同模态之间对应关系。此外,为防止聚类和分类联合使用过程中产生平凡解,在特征集合构建过程中采用了一种基于孪生网络的特征约束方法。该算法可同时适用于二维卷积神经网络和三维卷积神经网络,并能够减少网络预训练对有标签数据的依赖程度。4.研究了网络识别实时性差的问题。为提升网络对行为的识别性能,通常同时利用RGB图像的静态信息和光流图的动态信息进行建模。然而,光流的计算耗时较长,会导致网络的实时性变差。本文提出一种基于修正运动矢量的快速行为识别算法。该算法首先提取压缩视频中的运动矢量,并利用对应视频帧的离散余弦变换系数对运动矢量进行修正。然后,将修正后的运动矢量替代光流作为网络的输入,从而避免因计算光流带来的耗时。最后,该算法还使用轻量化网络Shuffle Net V2构建双流网络模型,进一步减小模型内存空间,提高了计算效率。
其他文献
随着高科技先进武器的快速发展,现代电子战面临着巨大的挑战。而宽带数字阵列技术在电子战系统中发挥着重要的作用。本论文就宽带数字阵列发射系统中所涉及到的三个关键技术,天线阵型设计、发射天线端射频功率放大器有限线性动态范围以及阵元通道中存在相位误差等展开了研究。论文分析了上述宽带阵列发射系统中的关键技术难点,提出了解决方案,并且通过仿真验证此方案对存在问题的改进程度。本论文研究的范围主要涵盖了宽带阵列阵
随着自动化和计算机技术的发展以及市场竞争日趋激烈,制造系统经历了重大的转变。近年来,为了敏捷地响应市场的起伏动荡并满足层出不穷的客户定制需求,自动制造系统的研究受到了日益广泛的关注。自动制造系统由数控机器、装料\卸料以及存储单元、自动材料运输系统等组成,通过中央计算机控制实现协同工作。在实际应用中,自动制造系统往往需要以监督控制方式引入相应的控制规范,施加给既定系统模型,从而使系统按照期望方式运行
近年来,随着雷达技术的高速发展,目标探测与识别技术日新月异,尤其是有着“海上霸主”之称的航母在国与国对抗中的作用日益加重,对于获取雷达散射截面的需求愈发迫切。一般而言,认知复杂系统电磁特性的主要手段有实验测量和数值计算,然而受限于试验场地、实验目标等诸多问题,许多实际情况不允许也难以进行精确的实验测量,如海面航行的航母所处电磁环境就无法在微波暗室中进行模拟测量。因此电磁数值仿真分析成为解决此类问题
非刚性点集配准是图像处理和计算机视觉领域中的重点和难点问题,在医学图像处理、遥感图像处理、视频处理、图像融合、目标识别、立体视觉等任务中有着广泛的应用。点集是指从相应图像中提取的特征点位置的集合。非刚性点集配准的目标是使用一组复杂的插值函数恢复点集之间的非刚性形变。非刚性点集配准的难点主要有两个:一是图像退化,例如剧烈的形变、噪声、缺失点、离群点以及旋转等可能会对算法性能造成严重影响;二是在点数目
随着无线通信技术的进步,移动通信系统所提供的服务类型从1G中单一的模拟话音业务演变为5G中多样化的数据业务。而随着社会发展需求的推动,实现万物互联的物联网展现出巨大的应用潜力和市场前景。作为5G标准中支持物联网机器间通信的关键场景,海量机器类型通信(massive Machine-Type Communications,mMTC)场景展现出如下显著特点。(1)设备的海量特性与极高的部署密度;(2)
电磁场看不见又摸不着,但却无处不在地存在于我们的生活中。无论是在军事还是民用领域,人们所处的电磁环境都在变得越来越复杂,人们想要了解的电磁问题也变得越来越精细、越来越庞大。在诸多电磁数值算法中,表面积分方程法由于其理论精度高、离散单元少的优点,一直以来被计算电磁学领域的学者们广泛关注。面对日益增长的电磁仿真需求,即使是积分方程法的快速算法,也很难在有限的计算资源内求解现实电磁环境中的超电大问题、系
现实世界中,不同领域的复杂系统和结构,例如物流学中交通运输系统、社会科学中的社交系统、信息预测与推荐系统、认知科学中的知识图谱、生物学中的蛋白质交互结构、化学中的分子结构等都可以抽象为一种复杂网络(或图)结构化的数据形式进行表达。网络数据中的节点和连接节点之间的边分别代表了相应的实体和实体之间的联系。对网络数据的结构分析和特征表示研究具有非常高的学术价值和潜在的应用价值。其中,复杂网络中的一个最基
癌症严重阻碍了人类预期寿命的提高,而且其发病和死亡人数也一直在持续上升。肿瘤的术前精确诊断和预后评估可以帮助医生根据每个患者的病情制定合适的个体化治疗方案,具有重要的临床意义。然而,在实际的临床工作中,肿瘤的异质性导致了术前穿刺活检的结果可能存在偏倚。尽管完整肿瘤样本的病理学分析能够实现最精准的诊断,但术后的病理学分析存在滞后性。因此,术前的无创精准诊断和预后预测是目前临床工作的一大挑战。伴随着计
近年来无线通信技术迅猛发展,尤其是移动通信技术分别历经了GSM、CDMA、LTE、5G等,这些技术的革新推动了通信行业的发展。如何高效的管理无线资源一直是通信行业探讨的热点,无线资源调度作为无线资源管理的核心部分也受到科研工作人员越来越多的关注。传统的无线资源管理往往是站在运营商的角度提高运营的盈利,例如优化系统的吞吐量、最小化系统时延和丢包。如今本着顾客至上的原则,移动运营商也越来越重视用户体验
光电转换在现代社会中应用广泛。通过选择不同带隙的半导体材料可以构筑不同波段的光电子器件。二维材料由于种类丰富,电学和光学性质优异近年来被广泛应用于光电子器件中。然而由于二维材料的超薄特性,其绝对光吸收有限制约了其在光电领域的应用。通过构筑二维有机无机异质结可以有效解决二维无机材料光吸收不足的问题,实现材料之间的性质互补,为构筑高性能的光电子器件提供基础。本文主要研究通过构筑高质量的有机无机异质结实