论文部分内容阅读
手语是使用手部姿态、手型变化以及轨迹信息来表达含义的视觉语言,是与听力及语言障碍者沟通的主要交流工具。手语识别可以改善我国目前需要使用手语的人数多但手语普及程度差的问题,为听力及语言障碍者提供更加便捷的学习、工作与生活方式。同时,手语手势检测与识别是人机交互领域的重要分支,其研究对人们向新型便利的智能交互过渡具有重要的先导意义。手势检测与手语识别方法通常可以分为传统方法和基于深度学习的方法。近年来随着深度学习在计算机视觉领域的大放异彩,证明了基于深度学习的方法具有提取特征丰富、建模能力强和训练直观等诸多优点。因此,本文基于神经网络对中国手语进行了手语词手势检测与手语识别研究,主要的研究内容包括:1.为了提升手语词手势检测的准确率和稳定性,提出了一种多尺度加速区域卷积神经网络用于手势的检测。分别针对手势区域小且包含丰富信息的特性和手势类别的难区分性,构建了多尺度特征提取结构和候选区域生成结构。在两个手语手势检测数据集上进行测试,提出的模型分别达到了 93.6%和90.0%的平均精度均值。2.针对手语是一个时序序列,构建了基于长短时记忆单元(Long Short-time Memory,LSTM)编解码网络的手语识别框架。并根据手语词动作间的可拆分性和上下文联系,在此框架的基础上融入了手语字单元的模型。以单路三维卷积神经网络提取时空特征,以LSTM编解码网络实现手语图像特征序列输入到文本序列输出的过程。实验表明基于该方法能够在手语词数据集上达到98.7%的识别率。3.为实现手语RGB图片序列的检测、跟踪、表征与识别,我们将手语词手势检测模块与识别模块结合起来,构建了基于双路三维卷积神经网络和LSTM编解码的手语识别框架。该框架依靠提出的手势检测模型与中值流跟踪算法来获取手势区域,在单路三维卷积神经网络的基础上设计双路三维卷积神经网络获取融合特征。