基于时空模型的多模态动态手势识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Dream_624727
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能电子设备的高速发展,人机交互的方式也日新月异。手势是人们表达自我的一种常用方式,其识别技术对人机交互领域有重要的意义。手势识别有望开启人机交互的新篇章,给人们带来更便捷、更人性化的交互方式。本文通过对动态手势识别的相关算法进行研究,提出了一种新的算法提高手势识别的效率和准确率以促进手势识别的现实应用。本文首先介绍了手势识别的研究意义和当前的研究现状,并概述了深度学习的相关理论,然后分析了双流法和三维卷积神经网络(3DCNNs)这两种主流的手势识别算法。针对已有算法效率和准确率不高的问题,结合双流法和3DCNNs的优点,提出基于时空模型的多模态动态手势识别算法,本文进行了如下工作:(1)针对动态手势识别效率较低的问题,本文将深度可分离卷积引入到了3DCNNs中,并结合双向卷积长短记忆网络(BiConvLSTM)和ShuffleNet设计了新的时空模型网络。该网络不仅非常适合时空型数据,而且具有较高的效率。然后针对手势视频采集时的帧数是不定的问题,提出了基于帧间差分的关键帧提取方法和来统一视频帧数。经过实验证明,该网络在小幅提升准确率的同时以有效提升手势识别的效率。(2)光流对于手势识别准确率的提升是巨大的,但利用原视频帧提取光流帧会带来巨大的计算量和存储量。为了解决这个问题,本文引入了基于卷积神经网络(CNNs)光流法TVNet,设计了基于端到端的光流生成并提取光流特征的网络。这种方法生成的光流帧不仅比传统方法更适合手势识别,而且不会带来额外的存储消耗。(3)为了进一步提升手势识别的准确率,本文基于RGB、深度、光流三种模态提出了基于时空模型的多模态动态手势识别算法。首先对RGB视频中存在的手势部分偏暗的现象采用了直方图均衡化的方法进行图像增强,对深度视频中存在的噪声则采取聚类的方法进行去噪。最后,将RGB、深度、光流三种模态的数据输入网络中提取特征,并进行特征融合作为分类的依据。本文在手势识别公开数据集IsoGD上对提出的算法进行了实验。首先,将提出的新型时空模型网络与其他优秀算法进行了效率和准确率上的对比,证明了本文提出的时空模型可以在不降低准确率的前提下提升识别的效率。然后对其他改进的部分分别进行了对比分析实验,最后将本文提出的基于时空模型的多模态算法与其他算法在IsoGD数据集上进行对比。
其他文献
序列密码的设计思想正在从线性序列变换到非线性序列,与此同时涌现了很多性质良好的非线性部件。进位反馈移位寄存器(FCSR)由于自带非线性,类似于LFSR的代数结构,具备优良的密码学性能,被认为是LFSR的一个较好的替代。在研究FCSR的结构和生成序列的同时,基于FCSR设计的各种新型序列密码开始出现,催生了各种针对FCSR类密码的分析技术与攻击手段,这反过来促进了FCSR理论与结构的进一步完善。本文
近年来,随着传统媒体不断向数字化转型,数字媒体内容逐渐成为互联网的主体。然而,大量的数字媒体内容中只有少部分是真正热门的,这就需要及时而有效的热度预测算法来甄别热门
随着信息技术的蓬勃发展,集成电路集成度不断提高,器件的特征尺寸不断缩小,传统的非挥发性存储器正面临着发展瓶颈:不断缩小的器件尺寸使得浮栅的厚度相应减小,然而过薄的栅
软件安全漏洞问题是当前网络空间安全的重要研究方向之一,软件安全漏洞一旦被恶意攻击,会导致用户的财产损失和信息泄露。模糊测试(Fuzzing)技术作为一种自动化的软件漏洞动态检测技术,因其在漏洞发掘方面的高效性和易用性,近些年获得了很大关注。将Fuzzing测试技术与符号执行、静态分析等其他程序分析技术相结合来提高Fuzzing测试的效率,成为了目前的一个研究热点。论文主要研究以一种更有效、更高效的
随着人类社会发展,贫穷和人类社会历史相伴而生。社会救助作为整个社会保障体系中最古老的一项制度,几千年以前,我国政府通过为社会中的贫困者和其所在的贫困家庭提供帮助的
中文分词是自然语言处理中的基石,由于中文在文本中的特殊性,它并不像英文一样有明显的空格分隔开,而是以单个字为单位,因此如果需要从文本中获取有用的信息,一定需要有正确分词后的文本,才能更好地进行下一步的自然语言处理方面的工作。然而中文分词的两大难点——真歧义以及未登录词,至今仍旧没有很好地解决。面对网络上用户的复杂信息,作为命名实体识别中必不可少的一部分,用户标识识别就可以发挥其作用。序列标注模型在
数据挖掘是一个从大量、复杂且冗余的数据中利用先进且精确的技术挖掘并产生新知识的过程,目的是寻找数据间潜在的关联,为研究者提供有利的科学指导依据。聚类算法是数据挖掘领域的一种重要的无监督算法,旨在找寻数据内在的分布结构,以便做进一步的数据分析。目前在许多研究领域都有较为广泛的应用,包括模式识别、信息检索、神经网络、图像处理等。本文对聚类算法进行了深入的研究,提出三种新的无参数峰值聚类算法:1.提出了
伴随着近些年来移动互联网以及移动支付的蓬勃发展,移动终端自身所蕴含的价值日益增多。由于巨大黑灰色利益驱动,恶意攻击者开始尝试入侵移动终端并进行盗用,在面对层出不穷的恶意入侵方法的情况下,如何对用户进行身份认证成为了保护用户财产的重要研究内容。当前对手指操作行为的身份认证的研究,大多数针对的是用户触碰屏幕时的过程,通过对用户触碰屏幕瞬间产生的行为数据进行特征提取,并使用各类检测算法进行比对或分类。因
在当今科技飞速发展的时代,人工智能成为核心领域之一,机器学习和数据挖掘逐渐影响着人们的生活,很多科技产品都是在此基础上的应用与研究,如指纹或人脸识别考勤设备、汽车无人驾驶、高级智能化机器人等新技术,这些利用信息科技推动发展的新技术使人们的生活和工作变得更加方便和高效。在众多的领域中,聚类分析是一类重要的应用技术,将粗糙集应用在聚类分析上也是当前研究的热点领域。本文首先对常用的度量方法进行介绍和总结
近年来,计算能力的迅速提高使得基于卷积神经网络(CNN)的方法已在大量应用中取得了巨大成功,并且已成为计算机视觉中最强大,应用最广泛的技术之一。本文基于VGG16卷积神经网络的巨大潜力和通用性,对其进行硬件加速在不影响其精度的情况下加速计算过程并且降低功耗。FPGA是加速CNN的最有前途的平台之一,但是有限的带宽和片上存储器大小限制了CNN的FPGA加速器的性能。本文设计实现一种卷积神经网络的硬件