基于神经网络的中国手语词手势检测与手语识别方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:l4992324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语是使用手部姿态、手型变化以及轨迹信息来表达含义的视觉语言,是与听力及语言障碍者沟通的主要交流工具。手语识别可以改善我国目前需要使用手语的人数多但手语普及程度差的问题,为听力及语言障碍者提供更加便捷的学习、工作与生活方式。同时,手语手势检测与识别是人机交互领域的重要分支,其研究对人们向新型便利的智能交互过渡具有重要的先导意义。手势检测与手语识别方法通常可以分为传统方法和基于深度学习的方法。近年来随着深度学习在计算机视觉领域的大放异彩,证明了基于深度学习的方法具有提取特征丰富、建模能力强和训练直观等诸多优点。因此,本文基于神经网络对中国手语进行了手语词手势检测与手语识别研究,主要的研究内容包括:1.为了提升手语词手势检测的准确率和稳定性,提出了一种多尺度加速区域卷积神经网络用于手势的检测。分别针对手势区域小且包含丰富信息的特性和手势类别的难区分性,构建了多尺度特征提取结构和候选区域生成结构。在两个手语手势检测数据集上进行测试,提出的模型分别达到了 93.6%和90.0%的平均精度均值。2.针对手语是一个时序序列,构建了基于长短时记忆单元(Long Short-time Memory,LSTM)编解码网络的手语识别框架。并根据手语词动作间的可拆分性和上下文联系,在此框架的基础上融入了手语字单元的模型。以单路三维卷积神经网络提取时空特征,以LSTM编解码网络实现手语图像特征序列输入到文本序列输出的过程。实验表明基于该方法能够在手语词数据集上达到98.7%的识别率。3.为实现手语RGB图片序列的检测、跟踪、表征与识别,我们将手语词手势检测模块与识别模块结合起来,构建了基于双路三维卷积神经网络和LSTM编解码的手语识别框架。该框架依靠提出的手势检测模型与中值流跟踪算法来获取手势区域,在单路三维卷积神经网络的基础上设计双路三维卷积神经网络获取融合特征。
其他文献
本文不仅探讨《大智度论》中空的概念的源流,更从论中菩萨修行的角度审视空的深层内涵和实践意义。部派佛教时期的空三昧,是修行人开悟时升起的三种(或四种)三昧之一,或者开展无我
目的:利用BOLD-fMRI研究颞叶癫痫(Temporal lobe epilepsy,TLE)患者与正常人完成计算任务时脑区激活差异,探讨颞叶癫痫患者计算认知功能障碍的脑功能影像学表现。方法:使用3.0T
语言是一种为交际过程所制约并带有交际者心理烙印的符号体系。一个民族的词汇和文化均能揭示这个民族的心理素质。詈骂语是各民族日常生活中不可避免的语言现象,它能够折射出
目的:通过对老年男性慢性阻塞性肺疾病(COPD)患者合并焦虑抑郁患病情况进行临床观察,对合并焦虑抑郁组与无焦虑抑郁组之间临床相关资料整理分析,进行统计学处理,初步探讨COPD合并
作为垄断组织的一种,卡特尔以其隐蔽性为特征,对自由竞争造成了巨大的威胁。这是因为卡特尔以垄断协议为基础,而垄断协议具有秘密性,如果没有详实的证据对卡特尔加以揭发,仅以现行
目的:优选贯叶金丝桃滴丸的提取工艺,为该制剂的剂型改制提供参考。方法:利用药效学试验比较贯叶金丝桃滴丸水提物和醇提物对小鼠感染病毒肺指数的影响,筛选提取方式。以金丝
频谱地图能向用户提供频谱信息,快速实现频谱接入。针对异构网络中主用户的活动性对次用户购买频谱积极性的影响,在频谱地图的协助下次用户获得主用户的活动概率,并将次用户,
<正>全面深化改革关系到党和人民事业前途命运,关系到党的执政基础和执政地位。全面深化改革必须坚持公有制经济的主体地位,坚持和完善基本经济制度,毫不动摇地巩固和发展公
随着虚拟现实技术的飞速发展,人们迫切需要一种自然友好的字符输入方式,于是越来越多的研究人员投入到动态手势的研发当中。本文基于隐马尔可夫模型(HMM)搭建了一套动态手势