基于骨架的人体动作识别研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:Affiant_Donkey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体动作识别通过分析人体运动数据来判断人体动作的类别,是典型的多分类任务。它是行为分析和理解的重要基础和前提,在人机交互、智能监控、智能运动、医疗保健等领域具有广泛应用,近年来已成为了计算机视觉领域的热门研究方向。根据人体动作的信息载体不同,人体动作识别可以分为视频动作识别和骨架动作识别。前者的信息载体是连续的图像序列,后者则基于光学估计、深度相机、动作捕捉设备或三维姿态估计算法等得到的关节三维坐标序列,即骨架数据。骨架数据相较于图像视频数据而言,不受拍摄环境、背景、光照、人物穿着等因素的影响,因此具有更强的鲁棒性。本论文的主要研究内容是基于骨架的人体动作识别和三维姿态估计,并研发了一个应用于真实场景的动作识别算法。首先我们提出了一种基于非局部操作的骨架动作识别网络,然后提出了一种基于多尺度图卷积的三维姿态估计网络,最后设计了一个士兵会操动作识别算法。本文的具体工作如下:(1)提出了一种基于非局部操作的人体动作识别网络。首先通过非局部操作来学习关节之间的连接权重,然后通过时序卷积操作对关节间的时序关系进行建模,最后通过时空融合模块实现时间和空间特征的融合。该网络在NTU RGB+D Skeleton数据集上达到了接近最高识别准确率的水平,并且模型计算量和参数量都低于大部分主流网络。(2)提出了一种基于图卷积的三维人体姿态估计网络。首先设计了一种多尺度图卷积操作来聚合不同距离内的邻居关节特征,并结合了一种邻居关节分类策略来提高对邻居关节的刻画细粒度。然后设计了一种身体分层池化模块来获取不同尺度下的身体上下文信息。最后在此基础上设计了一种轻量级的三维姿态估计网络,并在Human3.6M数据集上达到了领先同类工作的姿态估计精度。(3)针对真实场景下的士兵会操动作识别任务,本文提出了一个基于关键姿态帧的动作序列分段和识别算法,能有效对会操的骨架序列进行动作分段和识别。该方法在实际应用中具有良好的效果,能满足实际应用环境的需求和限制。
其他文献
本文是对图像复原中的去雾算法这个领域做了一系列的研究探索。简单来说,本文首先介绍了结合神经元注意机制(Neuron Attention,NA)的更迭去雾网络所使用到的一些关键算法与模块。其次介绍了关于双向长短期记忆网络(Bi-LSTM)的基本构架。最后介绍了关于神经元注意力机制的基本结构,以及其所采用的深度和点卷积的运算过程。NA模块是在通道注意力机制的基础之上发展而来的,可以通过模拟神经元之间的
随着智慧教育的不断发展,自动判卷已经成为未来的一种趋势,而作为智慧教育的入口,OCR识别也越来越受到研究者们的重视。其中作为OCR识别系统中的手写体数学公式识别一直因为其复杂多样的二维结构,导致其研究进展缓慢。本文以数学公式的二维结构为着手点研究数学公式的识别,并进一步研究表达式一致性判别的相关问题,最终构建了一个初中数学填空题自动判卷系统。其主要研究内容如下:对于数学公式识别,本文采用编码器-解
行人重识别是在图像库中检索与查询图像具有相同身份的行人图像。目前,行人重识别在智慧城市、刑侦取证、社会安全等领域有着广泛应用。然而,行人重识别需要依赖大规模的有标记的数据集来训练模型,而数据标注的高成本使得基于监督学习的方法难以扩展到现实应用中。因此,如果能在不使用数据标注的情况下,将在其他数据集中训练的模型直接迁移到新的数据集中,将会对极大促进行人重识别技术的商业化进展。本文借助域适应、影响函数
地表上行长波辐射是反映地球表面冷暖状况的指标,是地表辐射收支的关键变量之一。在已有地表上行长波辐射产品的估算算法中,地表均被假设为朗伯体,对地表热辐射方向性的回避会给地表长波上行辐射的估算带来很大的误差。对同一地物进行多角度准同步观测是解决热辐射方向性最直接最有效的方法,然而,目前在卫星尺度只有ATSR系列传感器可以提供两个角度(0°和前向55°)的准同步观测。两个角度不足以驱动热辐射方向性核驱动
湘西土家族摆手舞源远流长,是土家族传统文化的重要内容,在各种节日庆典中发挥着重要作用。虽然湘西土家族摆手舞在当地受到部分人的高度关注,但是在传承发展方面却面临着困境,亟待寻求多条路径予以优化解决。本文立足于舞蹈教育层面,在简要介绍湘西土家族摆手舞的基础上,明确了传承和发展湘西土家族摆手舞的重要性,并重点探讨了如何在舞蹈教育过程中传承和发展摆手舞,希望相关举措具备参考借鉴作用。
随着知识经济时代的到来,知识在生产生活中发挥着越来越重要的作用,为了让知识流动起来消除“信息孤岛”现象,基于区块链的知识共享技术已经成为了当前研究重点。在知识共享环境中共享网络通常地域分布广阔,网络状况复杂并且对工作效率和安全性要求较高。但是由于当前区块链共识算法大多基于同步或半同步网络假设,相应的设计难以应对网络延迟类攻击,并且不能同时保证可伸缩性和安全性,使得基于区块链的知识共享技术难以在应用
基于自然语言描述的行人图像检索研究指的是给出一段自然语言形式的文本描述,从行人图像数据库中检索出与文本描述最相符合的行人图像。随着卷积神经网络和循环神经网络的快速发展,计算机已经具备高效提取图像与文本特征的能力。然而,仅仅提高视觉模型或者文本模型的特征提取能力对基于文本的行人图像检索研究的性能提升收效甚微。由于图像和文本特征分属于不同模态,如何减小不同模态之间的语义鸿沟成为提高基于文本的行人图像检
近年来,由于国家层面对境外融资政策的支持,境外发债迅速成为中资企业特别是地方国企融资方式的新宠。分析中资美元债的发行模式、存在的潜在风险及应对措施,具有现实指导意义。
文本情感分类是一个自然语言处理领域中的常见问题。随着大数据时代数据规模的爆炸式增长,用户在互联网的使用中积累了大量的文本数据,如何从文本中有效提炼出用户的情感倾向成为了如今自然语言处理领域的一大挑战。而文本情感分类方法作为处理该问题的有效方法之一,也因此得到了研究者们的广泛研究。现有的文本情感分类方法主要使用神经网络相关技术及结构以提取到原始文本中的深层特征信息,进而根据提取到的特征完成文本情感倾
泛娱乐产业发展如火如荼,视频压缩作为基础业务,发挥着极其重要的推动作用。视频压缩的核心技术不断更新,但人们对视频的要求不断提高,有限网络带宽与超高视频码率之间的矛盾仍是未来很长一段时期的研究热点。码率控制与率失真优化技术作为视频编码端优化技术,不可或缺。视频转码能力作为视频服务提供商的硬实力的象征,长期以来各大厂商不遗余力地研发提升。为此,本文围绕多路并行码率控制、率失真优化和视频转码三项内容展开