【摘 要】
:
手势是一种人类的肢体语言,不仅包含十分丰富的信息而且在人与人之间交流时便捷且自然,因此手势识别逐渐被应用于人机交互领域。手势识别按照手势的分类分为静态手势识别和动态手势识别,由于动态手势可以反映手势的连续变化、表达更加复杂的手势信息,因此动态手势识别具有更加广阔的应用空间。本文对基于计算机视觉和深度学习的动态手势识别方法进行了研究,综合考虑识别速度、识别正确率、应用平台的显卡规格等因素,提出了两种
论文部分内容阅读
手势是一种人类的肢体语言,不仅包含十分丰富的信息而且在人与人之间交流时便捷且自然,因此手势识别逐渐被应用于人机交互领域。手势识别按照手势的分类分为静态手势识别和动态手势识别,由于动态手势可以反映手势的连续变化、表达更加复杂的手势信息,因此动态手势识别具有更加广阔的应用空间。本文对基于计算机视觉和深度学习的动态手势识别方法进行了研究,综合考虑识别速度、识别正确率、应用平台的显卡规格等因素,提出了两种动态手势识别模型:Light-GestureNet 和 GestureNet。Light-GestureNet 在提取代表动态手势的图像序列的局部时空特征的基础上提取全局时空特征,GestureNet在提取图像序列的局部时空特征的基础上提取深度特征的同时拼接融合全局时空特征。(1)提出了基于Skip-Res3D和ConvLSTM的轻量级动态手势识别模型Light-GestureNet,Light-GestureNet适用于显存大于6.5GB的应用平台,具有广泛的应用场景。Skip-Res3D 参考 Highway Networks、ResNet、DenseNet的跨层跳跃连接思想在Res3D中所有相邻残差块之间引入了跳跃连接来进行信道信息融合。Light-GestureNet使用Skip-Res3D提取图像序列的局部时空特征的同时简化特征集、加快ConvLSTM的计算速度,之后将Skip-Res3D提取的特征序列输入到ConvLSTM提取全局时空特征。因此Light-GestureNet可以在提取图像序列的时空特征的同时加快模型拟合速度、减少网络深化导致的特征信息丢失并融合更多信道信息。(2)提出了基于Skip-Res3D和DepthNet的动态手势识别模型GestrueNet。GestrueNet适用于显存大于11GB的应用平台,对动态手势的识别正确率高。DepthNet包含深度可分离卷积神经网络分支和ConvLSTM分支,深度可分离卷积神经网络分支是为了进行深度特征提取的同时减少计算量和过拟合的可能,ConvLSTM分支是为了提取全局时空特征。GestrueNet使用Skip-Res3D提取图像序列的局部时空特征,之后将Skip-Res3D提取的特征序列输入到DepthNet中提取深度特征信息的同时拼接融合全局时空特征。因此GestureNet可以在减少参数量的前提下有效地提取动态手势的时空特征。为了验证本文提出的模型的可行性和有效性,在Jester数据集上进行模型训练和测试的实验,Light-GestureNet的识别正确率为92.55%,平均单个手势的识别时间为7.57毫秒,占用6.5GB显存,输入是16张56×56像素的图片;GestureNet的识别正确率为95.64%,平均单个手势的识别时间为14.27毫秒,占用10.9GB显存,输入是16张112×112像素的图片,并且通过混淆矩阵分析、降维可视化分析、显著性分析证明了 Light-GestureNet和GestureNet的有效性。最后以这两种模型为基础搭建了基于客户端-服务端风格的可以识别7种动态手势的动态手势识别系统并且以控制Power Point为应用场景来验证模型的效果。基于GestureNet的动态手势识别系统的识别正确率为97.57%,平均单个手势的系统延迟为452毫秒;基于Light-GestureNet的动态手势识别系统的识别正确率为94.56%,平均单个手势的系统延迟为223毫秒,识别延迟较基于GestureNet的动态手势识别系统低的原因有两个:1.Light-GestureNet 较 GestureNet 识别动态手势的速度快。2.因为 GestureNet 参数数量较多,输入GestureNet的图片序列的图片较大以防止发生过拟合现象,因此客户端向服务端传输数据较慢。实验结果表明,Light-GestureNet是一种识别速度快、显存占用低的轻量级动态手势识别模型,GestureNet是一种准确率更高但是识别速度较慢、显存占用较高的动态手势识别模型。
其他文献
在现阶段空空攻防战中,末制导律阶段由于其作为弹目最终交汇条件的判断依据,因此在控制领域中收到广泛关注。现如今,基于末制导律的设计方法多采用传统的比例制导律或其变种,其在理想情况下效果尚可,但在现如今目标机动方式多变、环境存在噪声的末制导场景下,其制导性能较差,因此新型制导律的研发与设计成为了当今的研究热点。针对于传统比例制导律中的导航比系数为一定值,而不能随着弹目当前所处状态的变化而令制导导弹采取
卫星电源系统是卫星的核心组成之一,卫星电源故障会造成严重的、无法修复的损失。卫星电源系统的异常作为故障发生的“前兆”,若任其发展将导致星上任务完全失败,这就需要对卫星的运行状态进行持续和准确的异常监测。由于地面对于在轨卫星运行状况的掌握完全来自于卫星监测参数,随着卫星复杂度和监测参数的不断增长,通过数据驱动的方法对监测参数进行分析和建模,学习数据特征并实现对异常的检测,成为了航天领域研究的一个重要
工业机器人在生产领域智能程度的提升极大地扩展了机器人的功能。智能化工业机器人不仅能将人们从复杂恶劣的工作环境中解放出来,还提升了生产效率和产品的品质,已经成功渗透到生产制造的各个环节中。喷涂机器人作为其中的重要组成部分,在家具喷涂行业也逐渐得到了应用。由于座椅类家具种类多且空间结构复杂,喷涂自主规划困难,喷涂机器人仍然使用手动示教方法,这会带来工作效率低而且喷涂的质量由示教人员的操作技巧决定的问题
移动边缘计算通过将云数据中心的计算、储存能力下沉至网络边缘,在网络边缘为用户提供高带宽、低延迟的服务,满足了日益增长的移动设备和计算日益密集任务的迫切需求。本文研究了移动边缘计算中,基于用户移动场景和基于任务依赖关系的协同任务调度问题,构建了移动设备与MEC服务器之间、MEC服务器与MEC服务器之间的两层协同任务调度系统模型,该模型包含了移动设备、MEC服务器等实体模型、移动设备与基站的无线通信模
乳腺癌目前已经成为全球发病人数最多的癌症,对女性生命健康构成严重威胁。乳腺癌早期筛查中,超声起到至关重要的作用。然而,超声的成像质量不高,且易受伪影、血管纹理等因素的干扰,这给乳腺结节的鉴别与分析带来很大的挑战。本文分别基于模型集成与胶囊网络对超声图像中乳腺结节的分割和分类进行了改进。在乳腺结节分割方面,本文针对超声图像分辨率不足、难以提取到关键信息等特点,提出了基于“编码器集成”的网络结构,并采
漫画的创作需要经过草图到简化线稿到上色成稿几个步骤,其中从一张未上色的线稿到上色完成的成稿是赋予一幅漫画作品灵魂的必不可缺的步骤,而上色需要漫画创作者耗费大量的时间和精力。本文在分析国内外漫画自动上色方法的基础之上。以提高漫画上色成稿的质量和真实性为目的,通过理论分析、模型优化、实验迭代和应用开发等步骤全方位地对漫画自动上色方法展开研究,为漫画自动上色问题的解决提供思路。本文针对三种漫画上色方法展
开展小天体探测任务能够有效提升我国深空探测技术水平,推动行星科学的发展。小天体三维建模是深空探测的一个重要组成部分。小天体三维建模需要的图像数据数量大、分辨率高,一方面会使得探测器进行频繁的轨道机动来拍摄足够数量的图像,另一方面会使得探测器数据传输耗时增加。所以进行小天体三维建模的观测任务规划,在满足小天体三维建模图像数据需求的前提下,尽可能的节约探测器燃料资源与通信资源,是小天体三维建模的一项重
在软件开发、测试、维护和使用过程中,会有很多软件缺陷被发现。开发者通常使用缺陷追踪系统管理软件缺陷,但由于开发过程高度并行的特点或者在不同的产品中共用相同的组件等原因,相同的缺陷很容易被不同人员多次提交,从而导致缺陷追踪系统中存在大量重复报告,影响后续的缺陷分派与修复,因此研究者们提出多种自动重复缺陷报告检测方法。以往研究将重复缺陷报告检测视为检索或分类任务。检索任务中基于信息检索的重复缺陷报告检
近年来,互联网技术应用在各个行业,软件数量和规模呈现爆发式增长。开发人员在开发程序的过程中由于疏忽或者编程语言的限制,使得其中产生了缺陷即漏洞,从而被恶意攻击者发现并利用。随着软件安全问题的日益突出,研究人员也越来越重视漏洞检测方面的研究。然而由于软件的更新迭代导致软件结构的复杂化,仅仅依靠研究人员进行人工审查已经远远无法满足日益增长的检测需求。随着深度学习技术的广泛应用,基于深度学习的漏洞检测也
人类可以通过视觉、听觉和触摸等多种感官来察觉世界,当人类看见一个物体时,会联想到触碰它时是什么感觉。在本文的工作中,这里建立了视觉和触摸之间的跨模型连接,将视觉信号和触觉信号都以图片信号的形式,通过输入视觉图像输出触觉图像从而达到预测触觉信号的目的。这种跨域建模任务的主要挑战在于两者之间的的规模差异,可以理解为虽然我们的眼睛可以一次感知整个视觉场景,但人类只能在任何特定时刻感受一个物体的一个小区域