【摘 要】
:
随着人们日常生活水平的提升与人工智能技术的迅速发展,越来越多的智能家居系统、人工智能机器人等高科技产品进入人们的生活中。手势交互作为指令下达最为简洁、便利的人机交互方式之一,一直是计算机领域的研究热点。相较于穿戴比较繁琐且设备价格高昂的穿戴式手势识别技术,基于视频信息的动态手势识别技术则更为大众所接受。近年来,深度神经网络以强大的特征提取能力以及模型泛化能力在手势识别领域取得了较好的成绩。本文深入
论文部分内容阅读
随着人们日常生活水平的提升与人工智能技术的迅速发展,越来越多的智能家居系统、人工智能机器人等高科技产品进入人们的生活中。手势交互作为指令下达最为简洁、便利的人机交互方式之一,一直是计算机领域的研究热点。相较于穿戴比较繁琐且设备价格高昂的穿戴式手势识别技术,基于视频信息的动态手势识别技术则更为大众所接受。近年来,深度神经网络以强大的特征提取能力以及模型泛化能力在手势识别领域取得了较好的成绩。本文深入探究了一些基于视频信息的动态手势识别模型研究,发现大多数模型会使用三维卷积神经网络来处理视频数据特征提取任务。但由于空间与时域信息的复杂关系,三维卷积会存在模型参数过大,并且时域信息丢失的问题。而为了保留时域信息,许多研究都将视频信息分解成空间与时域两部分,并通过空间特征提取器与时序序列分析器,来进行对手势信息的识别。但相关研究同样存在了空间与时域信息断联的问题。因此,本文主要研究了基于视频信息的动态手势识别模型研究中空间与时域特征提取阶段,针对孤立动态手势识别模型提出了基于视频信息的动态手势识别的改进模型。本文的主要工作如下:(1)在用于手势识别任务的三维卷积模型中,引入Slow Fast结构,使得模型能够更加完整地保留空间与时域的特征信息。并加入三维级联卷积以减少由于三维卷积所带来的参数量过大的问题。(2)在时序特征序列分析中,引入轻量化的时域注意力机制模块。在不过多增加模型参数量的情况下,对时序特征序列的权值进行重新调整,从而对时序特征序列更有效地分析,达到了更高的分类精度。(3)本文引入一种多模态手势信息融合方法,使得神经网络模型在手势视频信息拥有多模态输入或缺少某一模态输入的情况下,可以合理有效地进行识别分类。
其他文献
粗糙集理论是处理不精确性和不确定性问题的一种工具,其从单粒度的角度描述目标概念,具有一定的局限性。而多粒度粗糙集通过多个二元关系从多个粒度来分析问题,能够处理更为复杂的信息系统。此外,基于双量化方法的粗糙集自提出以来,由于其综合考虑了相对和绝对量化信息,能够提高近似分类精度,在不确定性决策问题中受到了广泛的关注。三支决策理论对粗糙集中的粗糙域提供了合理的语义解释,并同时考虑了决策风险,使之成为不确
生物医学文本领域每年产生大量的文献、病例,这些材料中往往包含重要信息,但依赖人工处理不仅工作量巨大,并且难以保证效率。近年来,随着自然语言处理的不断发展,深度学习已经取代传统统计学方法,逐渐成为各领域的主流方法。利用深度学习技术对生物医学文本进行信息提取,一方面可以有效提高提取效率,另一方面,深度学习强大的特征学习能力能捕捉更多人工难以识别的特征,提高识别精度,强化提取能力。这对于生物医学领域发展
人们对于更大的硬盘驱动器的存储容量的日益增长的需求,推动了人们对这方面的关注和广泛的研究。在上个世纪末研究者发现了巨磁阻(GMR)效应,几年后就研究得到基于氧化铝的磁性隧道结(MTJ)。MTJ是一种不同于其它类型的磁性存储器,它是自旋电子学领域的有研究前景的纳米结构器件。MTJ具有很高的隧道磁阻(TMR)效应,体现在存储容量、速度和稳定性方面有很大的优势,另外由于是纳米器件,它的尺寸会比之前的存储
随着社交网络的快速发展以及用户的广泛参与,网络中产生了日均千万级的文本数据,其中包含了大量公众对热点事件的观点与态度,以及用户对产品的体验等。对这些含有丰富情绪信息的文本数据进行挖掘与分析,识别、理解其中包含的情绪信息,具有很高的社会价值与商业价值,引起了学术界和产业界众多研究者的广泛关注。网络文本具有口语化和不规范化的特点,这使得情绪分析工作面临很多挑战。在词嵌入表示方面,现有模型大多采用Wor
随着计算机视觉的迅速发展,3D成像技术在工业检测、医疗卫生、安全防护、虚拟现实和3D打印等领域得到了广泛的应用。本文研究的3D成像装置,以小柱状芯块为目标,实现对其外观质量的检测。3D成像装置采用纯色LED线结构光与面阵相机相结合的方式,对芯块的外观进行扫描。通过设计双滚筒机械装置,带动芯块旋转,从而实现对周面的结构光图像进行采集。通过设计电动滑台装置,带动芯块定向匀速移动,采集芯块端面的结构光图
复合材料作为一种新兴材料,凭借其强度高、重量轻、隔热性好等优良性能,近年来被广泛应用于工业生产的各个领域。但其在加工制造及使用时,可能会产生脱粘、孔隙等缺陷问题。这些问题会使复合材料性能快速下降,最终影响材料的可靠性。尽管破坏性试验检测法可以较好地完成材料的质量检测,但其破坏了材料的结构,因而只能抽样检测,无法实现在线实时检测。因此,应用先进的无损检测技术实现对材料缺陷的检测与判定,具有重要的现实
姿态作为重要的导航参数,随着智能驾驶、无人机和无人车等技术的兴起,得到了越来越多的重视。在基于不同传感器的测姿技术中,GNSS测姿具有全天候、精度高和误差不随时间累积的优势,但在挑战环境下,测姿精度、连续性和可靠性会迅速降低。MEMS惯性(简称MEMS)测姿则具有低成本、体积小,自主无源的优点,将GNSS与MEMS两者进行信息融合可实现优势互补,获得更好的测姿结果。根据GNSS天线的数量,GNSS
数字隐写技术是保障通信安全的重要手段,但也为恶意的非法通信提供了便利。隐写分析技术作为隐写术的对抗手段,其目的是检测信号中是否嵌有秘密信息,在这个注重信息安全的时代具有重要的研究意义。数字音频是人们生活中常用的数字媒体之一。音频应用与音频处理软件的普及极大地促进了音频隐写和隐写分析技术的发展。在复杂的大数据取证场景下,音频数据通常具有多样性和复杂性,攻击者使用的载体数据模型和隐写算法通常是未知的,
特征匹配作为计算机技术和人工智能中一项基本的图像处理技术,在许多计算机视觉应用中都扮演着关键的角色,比如图像检索、图像配准、三维重建等。随着计算机技术和人工智能在人类日常生活中日益广泛的应用,人类对特征匹配技术的有效性、稳定性和泛化能力都有着更加迫切的要求。在特征匹配过程中,如何确定两个特征属于同一目标是非常困难的,特别是在匹配特征在外观上非常不相似,而非匹配特征又特别相似的情况下。因此,设计一个
随着地球人口膨胀、陆地资源短缺、生态环境恶化等情况的加剧,人类逐渐将目光聚焦于占地球表面积71%的海洋。水下图像在海洋生物研究、海底资源勘探、海洋军事应用和水下考古等领域起着关键作用,具有重要的研究价值。水下图像相比声学图像具有更加丰富的细节和色彩信息,在水下科考和工程实践中具有不可替代的地位。高质量的水下图像既满足了人们的视觉感知需求,又有助于高层视觉的应用。然而,由于水下成像环境的独特性和复杂