【摘 要】
:
人体运动识别作为计算机领域的前沿方向,具有十分重要的研究意义,相关算法可以被应用到许多领域,例如动作内容分析、人机交互、视频合成、视频检索等。特别是近几年来短视频平台的高速发展,使得相关的人体动作视频越来越多,对于这些视频信息的处理研究都需要有高效准确的识别算法作为支撑,因此研究人体动作识别算法在计算机领域势在必行。在人体动作识别的算法研究中,有很多经典的视频分类数据集,例如UCF101、HMDB
论文部分内容阅读
人体运动识别作为计算机领域的前沿方向,具有十分重要的研究意义,相关算法可以被应用到许多领域,例如动作内容分析、人机交互、视频合成、视频检索等。特别是近几年来短视频平台的高速发展,使得相关的人体动作视频越来越多,对于这些视频信息的处理研究都需要有高效准确的识别算法作为支撑,因此研究人体动作识别算法在计算机领域势在必行。在人体动作识别的算法研究中,有很多经典的视频分类数据集,例如UCF101、HMDB51等,很多研究都在这些数据集上取得了很好的效果。不过这些数据集中的样本内容大多都与背景具有一定的相关性,通过识别背景中的元素就能进行分类,例如乐器演奏、骑自行车这类运动的识别。这导致一些算法在设计时不足以关注到人体运动本身的特征。本文选择了更加细粒度的花样滑冰运动数据集FSD-10来进行人体动作识别算法的研究,探讨了骨骼点特征在研究人体运动时的优势,并提出了一种新的图卷积神经网络结构——DSTG网络(Dense Spatial Temporal Graph Network)来提高人体运动算法的准确率。本文的主要贡献如下:(1)对细粒度的滑冰数据集FSD-10提取骨骼点特征,建立骨架时空图,并在该数据集上复现了现有的图卷积人体动作识别网络。针对FSD-10样本时长分布不均衡、骨骼点特征波动大等问题提出了解决方案,并通过实验验证了预处理方案能够有效的提升现有网络模型的识别准确率。预处理策略使STGCN网络在FSD-10上的识别准确率从75.03%提升到了84.24%。(2)结合DenseNet和STGCN的设计思想,提出了新的图卷积网络结构DSTG模块。DSTG模块采用稠密连接(Dense connectivity)的形式进行连接,有效地利用网络浅层的特征,降低了网络参数的冗余程度,使DSTG网络在FSD-10数据集达到86.82%的识别率的情况下,模型参数量比STGCN减少了5倍。(3)分析了现有人体动作识别的图卷积网络在建立邻接矩阵时划分策略的局限性,根据滑冰运动特点,定义了基于凸包建立的邻接矩阵,能够作为模块对已有的网络模型进行补充,特别是与DSTG网络结合后能达到88.47%的准确率,提升了对于花样滑冰人体运动的识别效果。
其他文献
使用社交媒体平台是如今大部分人日常生活的一大特色。人们喜欢在互联网上分享自己的感受、趣闻轶事、大事小情,包括自己的身体状况、病情、用药等等。这同时也为自然语言处理工作带来了源源不断的数据资源。健康已经成为全世界最为关注的问题之一,它与我们每一个人都息息相关,并且在生活中扮演越来越重要的角色。将机器学习以及深度学习方法应用于生物医学领域是一种新的发展趋势,并将带来更大的发展。而社交媒体数据是由用户自
为满足我国近年来航空航天事业的发展需要,对大型构件的高效高精加工提出了新的要求,而数字化测量技术是保证加工过程高精、高效、高鲁棒的关键。目前,国内外航空航天业已经对工业生产中的测量技术进行了大量研究,其中视觉测量作为一种非接触式测量方法,具有数据采集快速、高精高效、便于移动、能够三维测量等优点,受到了工业界的充分研究和重视。本文主要研究了基于双目视觉的大型航空航天构件加工过程中局部加工定位点的高精
轻量级区块链继承了传统区块链的优势,对数据的安全性加以保障,同时结合移动边缘计算理念,避免了对计算和存储资源的过度依赖,满足了车联网边缘节点的实际需求。恰当的人工智能算法可根据车辆需求和上报数据的变化,有效地决定和分配不同地区的数据缓存,以避免数据与地域兴趣不匹配,从而间接影响车辆行驶过程中的数据卡顿等问题。本文结合现有的车联网特点和区块链技术,提出了一种轻量级区块链应用于车联网的架构,并引入协同
定制产品设计和生产制造过程中,制造商常邀请用户通过虚拟体验等方式感知产品性能。通过分析用户完成产品体验后发表的用户评价,了解产品设计的不足与缺陷,从而有针对性的完善产品性能,使定制产品更加适应用户需求。情感分析技术是一种基于句法分析和机器学习的文本观点提取与情感判断方法,在文本数据分析处理过程中,它可以基于文本数据近似模拟出文本特征与其情感倾向的关系。与人工分析文本相比,文本情感分析技术能够有效缩
目前,随着信息时代的高速发展和计算机计算能力的不断提高,人机交互的情绪识别是发展最快的研究领域之一。为了提高人机交互的效率,增强计算机识别情绪的能力是十分重要的。当前情绪识别的研究大多集中于人的面部表情、声音、文本等方面,而人体运动的情绪识别任务较少受到关注。然而,日常生活场景较为复杂,可能出现面部表情、语音等失效的情况,这时空间尺度更大的肢体动作情绪识别往往能够发挥更大的作用。现有的情绪识别数据
近年来,国家司法改革不断深化,随着司法机构数字化程度不断提高,法律文本数据信息出现了指数级的急速增长,海量司法文书的高效分析与处理成为亟待解决的问题,相关问题的研究也受到研究者的广泛关注。法律文书的命名实体识别,作为司法人工智能领域的关键性和基础性的工作,在法律问答、刑期预判和司法知识图谱构建等任务中起着重要应用。命名实体识别的研究推动了司法人工智能下游任务的发展,但目前司法命名实体识别的研究还处
雾霾是一种常见的大气现象,是空气中悬浮的微小颗粒物(灰尘、烟、微小水滴等)组成的气溶胶系统。在户外拍摄图像时,雾霾的存在常常会使得拍摄的图像出现对比度降低、整体色彩变淡等现象,导致图像的可视化效果变差,影响到后续的高层计算机视觉任务。因此,去除图像中雾霾的影响是一项很有意义的研究。对于图像去雾问题的研究,主要有基于图像增强、基于物理模型和基于深度学习这三种类型的方法。基于增强的方法属于较早期的研究
随着政务系统信息化程度的不断提高,各级政府机关在日常工作中积累了大量的数据。一方面,这些宝贵的数据资源有助于提高各职能机构的运转效率,促进社会经济发展;另一方面,由于政务数据的专业性和复杂性,使得人工提取数据中蕴含的海量信息变得难以实现。近年来自然语言处理技术的飞速发展,为信息自动化提取和数据高效利用奠定了坚实基础。然而政府机关对数据精度的要求较高,现有的算法未能充分利用该领域的文本特征,不能很好
神经机器翻译系统在双语句对齐资源丰富的场景下可以提供最先进的翻译性能。然而,对于医疗领域,域内语料资源的稀缺严重影响了翻译系统的性能。同时,医疗领域存在着大量的医学术语,机器翻译系统在低频术语的翻译上也往往表现不佳。面向双语句对齐资源丰富的新闻领域,提出了一种融合数据增强与多样化解码的神经机器翻译方法。首先,对语料中不同种类的未登录词进行泛化以缓解词汇稀疏的现象。其次,采用数据增强中的正向翻译技术
随着国内土木工程结构向着高度更高、跨度更大、结构形式更加复杂的方向发展,对大型复杂结构进行模态测试,获取结构的动力学特征,并以此进行状态评估与安全预警,已成为学界关注的热点问题。如何从大型复杂工程结构上采集到更加准确完整的结构响应,是模态测试首先需要解决的问题。国内外学者为此提出了一系列测点优化布设评价准则,用以指导测点位置的选择,提升模态测试中信息采集的准确性。但是利用这些准则选取测点需要以结构