协同时空注意力的骨架动作识别研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:dragonlumeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体动作识别是计算机视觉领域中一个非常热门的研究课题,它的主要任务是判断人体所做的动作属于何种类别,这对系统理解该动作所包含的信息并进行进一步的处理有非常大的帮助。人体动作识别有着非常广泛的应用,包括智能监控系统、无人安防、病人监护以及体感游戏等。人体动作识别根据不同的数据模态可以分为视频动作识别和骨架动作识别两大类。视频动作识别是以连续的图像帧作为模型的输入,而骨架动作识别则是通过动作捕捉设备以及三维人体姿态估计算法等得到的骨架序列作为模型的输入。与图像、视频的模态不同,骨架数据由于不受光照、背景等的影响,因此具备更强的鲁棒性。本文主要研究基于骨架的人体动作识别。以下是本文的主要工作:(1)本文首先分三类方法对基于深度学习技术的骨架动作识别方法进行了综述,这三种方法分别为:基于卷积神经网络的方法、基于循环神经网络的方法和基于图卷积神经网络的方法。(2)时空特征的建模是有效解决骨架动作识别这一问题的关键。通常来说,一般采用双流结构分别对时间特征和空间特征进行建模。其中,层次共现网络通过学习骨架共现信息实现了最先进的性能。然而,在层级共现网络的双流结构中,空间流和时间流相互独立,导致性能不是很理想。受压缩和激励机制的启发,本文提出了一种时空激励模块,以提高层级共现网络体的性能。时空激励模块不仅可以通过显式建模通道之间的相互依赖性来重新校准空间和时间特征,还可以通过显式建模空间和时间特征之间的相互依赖性来相互激励。因此,空间流和时间流可以相互学习并能够学得有效的时空特征。本文在基于骨架的动作识别基准NTU RGB+D数据集上进行了大量实验,结果表明,本文提出的模块在不引入额外参数的情况下可以获得良好的性能。(3)基于图卷积神经网络的算法已经成为了骨架动作识别任务中的主流方法。然而在时空图卷积神经网络中,空间图卷积层的结构与时序卷积层的拓扑结构是固定的,这一点极大地限制了时空图卷积神经网络的时空特征建模能力。同时,注意力机制因其具备有效性和可解释性的特点,被广泛应用到计算机视觉任务上。因此,本文提出了一种协同时空注意力模块,以参数共享的方式联合学习空间和时序维度的注意力。协同时空注意力模块可以插入到空间图卷积层和时序图卷积层之间,首先对空间图卷积层所学习到的特征在空间和时序两个维度上同时进行校准,然后再传入时序图卷积层学习时序特征,以此帮助模型增强时空特征学习的能力。协同时空注意力模块采用了参数共享的方式,因此非常轻量,能够以非常低的计算代价插入到主流的基于图卷积神经网络的方法中,获得比较大的性能提升。本文选用时空图卷积神经网络作为骨干网络,在两个大规模的骨架动作识别数据集上做了大量的实验,结果表明,与其他主流算法相比,本文的模型能够以更少的参数获得相当甚至更好的性能。
其他文献
视觉问答(Visual Question Answering,VQA)是基于计算机视觉和自然语言处理的跨领域交叉方向。VQA需要检测图像中包含的信息并理解与图像匹配的问题语义,输出符合人类语言逻辑的答案。其关键在于目标图像和问题文本之间语义对齐的学习,即通过神经网络提取图像特征和相对应问题文本的特征,然后将多模态特征映射到多模态特征空间中融合,最后在分类器中得出预测答案。目前的VQA模型大多采用全
学位
近年来周期驱动系统展现出的丰富物理现象受到学界广泛关注,此类体系在物理学的各分支,如量子混沌和凝聚态物理,有重要研究意义。非厄米物理是量子理论的一个根本修正,在量子线路、超冷原子气体和光波导管具有真实对应体系。非厄米效应诱导新奇物理现象,如拓扑新物态、非互易输运和趋肤效应,吸引了广泛研究兴趣。其中,一类Parity-time reversal(简称PT)对称系统所展现的奇异点(Exceptiona
学位
近年来,图像的目标检测与语义分割作为计算机视觉领域发展的基石,对图像理解分析起着至关重要的作用。目标检测主要关注的是图像中需要识别的物体类别信息,并标注出这些类别物体所在空间位置;而语义分割是指在图像的像素层面对目标物体实现分类,不仅要明确物体的类别、位置还要区分各个物体之间具体的形态信息。这两种方法在工业图像检测领域都具有十分优秀的应用前景。基于此,本文针对医学图像的血细胞检测与遥感图像的云检测
学位
作为计算机视觉领域中重要的研究课题,目标跟踪的主要任务是根据给定的目标信息从输入的视频序列中追踪目标,并输出该目标在视频序列中不同时刻所处位置。随着目标跟踪算法性能的逐步提升,目标跟踪应用也从雷达跟踪逐步延伸到军事调查、准确制导、战地评估、医学诊断等领域。但被跟踪目标处于复杂场景中时,导致的跟踪漂移、生成边界框尺度错误等问题仍然需要研究人员进行深入研究。因此,本文利用注意力机制、集成方法、特征融合
学位
智能优化算法被应用于人们生活的各个领域中,其中在无线传感器网络中,节点定位技术与网络覆盖技术是重要研究方向。本文对群居蜘蛛优化算法进行改进,并将其应用于无线传感器网络的覆盖与节点定位中。针对群居蜘蛛优化算法中存在的局部与整体间搜索能力的不平衡,算法在运行过程中蜘蛛的位置上逐渐向当前最优位置移动导致位置多样性降低,收敛精度低的不足之处,提出一种混合改进策略的群居蜘蛛优化算法。改进策略为:在算法的初始
学位
“教—学—评”一体化整合了教师教学、学生学习和效果评价,对于深化教育评价改革,推动英语学科核心素养落地具有重要的意义。研究发现,“教—学—评”一体化的概念包含过程完整、手段多样、主体多元等多层涵义,由目的、手段、解读、使用四要素构成,可以按照明确思想、研读文本、分析学情、一体化设计与实施、反思教学五个流程实施。通过呈现并分析具体高中英语课例,旨在为一线教师提供理论依据和实践参考。
期刊
近年来,NP-hard问题普遍存在于各种应用领域,使该问题受到了越来越多研究者的关注。传统方法在求解此类问题时,在计算成本、时间消耗上都面临着巨大的挑战。群智能算法所具备的灵活性、通用性、自学习能力以及对外部变化的适应性等优秀特征,同时该算法在求解NP-hard问题时所展现出来的高效性、稳定性等优良特性而被众多学者广泛研究。其中,蚁群优化算法作为一种群智能算法,结合了随机算法和局部搜索算法的优点,
学位
合金的微观组织分布情况决定着其性能优劣。为调控合金微观组织以提高其性能,需要对合金的微观图像信息进行提取和分析。面对合金成分多样性产生的不同合金微观图像存在巨大差异的问题,现有的合金微观图像信息提取算法无法满足碲铜合金微观图像和白铜合金微观图像的信息提取需求。本文围绕就如何深度提取碲铜合金和白铜合金的微观图像信息开展研究,针对不同组织的合金微观图像,提出了两种微观图像信息提取算法,并对有线条信息的
学位
随着工业4.0时代的逐步推进,对水电站发电系统的控制及监控系统进行自动化设计改造符合时代的必要性。本课题将现代控制理论与PLC控制技术进行结合,在搭建了水轮机调速系统非线性模型的基础上,进行了基于改进蝙蝠算法的水轮机调速系统非线性模型的PID参数优化实验;在PLC内编写了水轮机的自动控制程序;同时建立了以触摸屏和手机终端APP的数据采集与监控系统。根据对水轮机调速系统工作特性的分析,本文以动态特性
学位
目的:研究Mimics仿真辅助支气管镜冷冻治疗支气管结核的效果。方法:选取2020年1月-2022年6月九江市第三人民医院收治的68例支气管结核患者,采用随机数字表法将患者分为观察组(n=34)和参比组(n=34)。参比组采用支气管镜冷冻治疗,观察组采用Mimics仿真辅助支气管镜冷冻治疗。比较两组总有效率、深部痰菌转阴率及免疫功能指标。结果:治疗后观察组的总有效率高于参比组(P<0.05)。观察
期刊