基于人体骨架的动作识别算法研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:fbhww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动作识别作为计算机视觉中非常重要的一部分,近年来在人们的日常生活中的重要性逐步提升,在安防领域、人机交互领域、游戏领域等都具有广泛的应用。虽然传统的基于视频的动作识别方法取得了不错的成果,但是基于人体骨架的动作识别方法具有更加准确、轻量、鲁棒的优势,因此研究人体骨架动作识别具有很高的科研价值和应用推广价值。近年来,越来越多的研究者将图卷积神经网络的方法应用在人体骨架动作识别研究方向上。其中基于时空图卷积的骨架动作识别网络(Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition,ST-GCN)取得了非常好的效果,该方法在空间维度上利用图卷积神经网络提取单帧人体骨架关节点的特征,在时间维度上利用卷积神经网络捕获帧间的依赖关系。基于ST-GCN的时空图卷积思想,针对目前人体骨架动作识别在时空建模方面存在的不足,论文提出了网络的改进与优化方法,主要工作内容如下:(1)针对ST-GCN空间图卷积模块中邻接矩阵结构固定和非物理连接关系无法表达的问题,提出了自适应时空图卷积网络(Adaptive Spatial Temporal Graph Convolutional Networks,AST-GCN)。骨架数据输入到不同的全连接层,得到线性变换后的特征映射,将特征映射进行矩阵运算得到自适应邻接矩阵。与此同时,将表示骨架结构的邻接矩阵和可学习参数矩阵进行线性相加,使自适应图卷积在特征提取时以物理连接关系为主,非物理连接关系为辅,并且具有一定的调节修正能力。在时间建模方面,结合时间拓展模块,增加了帧间关节点特征融合的方式。(2)针对骨架数据通道数少,特征不显著的问题,提出了关节强度和帧权重两种语义特征。关节强度是关节的邻接节点数,在空间维度上,关节强度和关节类型结合构成空间语义特征。帧权重是当前帧在时序中的重要性,在时间维度上,帧权重和帧索引结合构成时间语义特征。空间和时间语义组成语义特征模块,从而使得帧内不同位置的关节点具有显著的特征表示,帧间相同位置的关节点具有明确的约束关系。(3)将自适应时空图卷积网络和语义特征模块结合,设计了基于语义特征增强的自适应时空图卷积网络。该网络在NTU-RGB+D和NTU-RGB+D 120数据集上进行实验,实验验证了各模块之间的有效性,提高了人体骨架动作识别的精度。同时基于设计的网络开发了人体骨架动作识别软件,可实现对视频文件和视频摄像头获取的视频中人体的动作识别。
其他文献
近些年,随着遥感和卫星技术的发展,多种类型的传感器获取遥感影像数据(多源遥感数据)的规模与日俱增,这给遥感影像的场景解译提出了严峻的挑战。本文针对的是跨源遥感图像检索任务,和一般的跨模态检索任务相比。一方面,高分辨率遥感影像包含的内容复杂,所以单场景包含的目标大小、类别变化多样。另一方面,由于不同传感器获取的遥感影像在分辨率、图像通道等方面的不同。例如,全色图像相较于多光谱图像缺少颜色信息,而多光
学位
光学合成孔径成像技术是实现超大孔径光学系统的一种重要且有效的途径,也是未来地基望远镜和天基光学遥感器的主要发展方向之一。它采用多个小孔径构成阵列合成大孔径系统的方式来实现高分辨成像。与传统大口径成像相比,光学合成孔径成像系统具有加工难度低,成本低,重量轻,体积小,组装设计灵活等优势。然而,合成孔径系统是子孔径的填充,频谱响应低,通常采用对其进行子孔径排布优化的方式提高分辨率,但此方法在面向深空探测
学位
目标检测是计算机视觉领域基础且重要的研究方向之一。当输入图像时,目标检测算法要给出图像中不同目标的类别和位置坐标。近些年来,研究人员在该领域进行了大量的研究工作,并取得了一些突破性的进展,但是目标检测算法仍然面临着诸多挑战,例如真实场景中不同目标的尺寸、长宽比、遮挡和模糊等情况都对算法的鲁棒性和准确性提出了更高要求,准确、高效地对目标进行定位需要目标检测算法具有更强的特征分辨能力和边框定位能力。本
学位
SiC复材构件具有多孔隙、非匀质的特点,通过CT扫描得到的切片图像特征复杂,疑似缺陷的孔隙数量较多,人眼难以鉴别。为了精准得到复材构件的内部结构,需要使用高分辨率CT扫描仪扫描,经济成本高。在实际工业场景中,缺陷样本数量少且较难获取,且正常样本与异常样本存在类别不均衡问题。现有监督学习方法未能很好的解决上述问题,而基于表征学习的生成式算法仅利用正常样本训练期望获得正常区域的表征模型,通过对比正常区
学位
异常事件检测在计算机视觉任务中是一个重要的研究方向,主要应用在智能监控、灾难预警等领域。对密集人群中发生的斗殴,枪击,恐慌等危险行为进行监控和预警是异常事件检测的重要应用之一。在线的异常事件检测任务目标是对摄像头实时捕获的视频流数据进行预处理和解译,检测是否存在异常事件。针对该任务存在场景复杂,异常事件发生频次低,受限制的设备端进行边缘部署等难点,本文在行为识别算法ECO的基础上进行了多方面改进工
学位
互联网的快速发展给现代社会带来了海量的信息,在涉及到处理图像信息的许多领域,图像分析人员所面临的一个巨大挑战成为了如何从海量图片中快速高效地获取感兴趣的目标图像。尽管计算机视觉系统已经可以快速而准确地完成目标识别,然而对于一些低质图片的处理效果仍达不到理想状态。脑机接口可以将用户的大脑活动模式转换成一个简单的消息或指令,是一种新的人机交互方式。基于快速序列视觉呈现(RSVP)范式的脑机接口系统为利
学位
近年来,虚拟现实(Virtual reality,VR)技术得到了广泛的关注,并且随着元宇宙概念的兴起,再次将虚拟现实推向了高峰。全景图像在虚拟现实构建沉浸式场景时具有极其重要的作用,目前的全景图像是由多个相机拍摄的小视点图像通过拼接技术合成的,因此拼接图像的质量好坏直接关系到VR沉浸式体验的效果。但目前拼接算法的水平参差不齐,拼接后的全景图像质量存在很大差异,且同一拼接算法在不同的场景下也呈现出
学位
高光谱图像(hyper spectral image,HSI)是一类包含几十到几百个光谱波段的特殊图像。由于其包含了反映物质特性的光谱信息,被广泛地运用于物质的识别与分类等重要领域。然而,受限于高光谱成像设备的元器件的物理极限和工作环境等诸多因素的限制,高光谱成像设备很难直接从环境中获取到高空间分辨率的高光谱图像。为了获取高空间分辨率的高光谱图像,人们尝试着从信号处理的软件方法着手,尝试着将低空间
学位
遥感图像在军事侦察、环境监测、地形测绘等多个领域有广泛的应用,因此获取到质量较高、边缘纹理清晰的高分辨率遥感图像有助于图像解译与应用等相关任务。然而,受限于成像系统自身的硬件条件,以及在处理过程中存在不可避免的图像降质因素,获取到的遥感图像存在分辨率低、缺少边缘纹理细节、噪声污染严重等问题。当下的超分辨率重建方法多应用在目标单一、景物尺寸大、自身具有丰富高频信息的光学自然场景上。这类方法不能很好地
学位
水声目标识别是开展海底多项工作的前提,是当下海洋探测研究的一个重点方向。水下发声源发出的声音信号在复杂的海洋环境中进行传播,导致信号接收端采集到的信号强度变得很弱,同时在传播过程中会被高强度的海洋环境噪声污染,人们很难采集到大量的高质量水声信号数据。因此如何在训练样本数量不足的情况下高效的进行检测识别是水声目标识别任务的核心问题。现有的水声目标识别方法可以分为基于传统机器学习的方法和基于深度学习的
学位