论文部分内容阅读
随着人工智能在科研领域的快速发展,深度学习技术得到了普遍应用,手势识别技术在日常生活中提供了很大的便利。哑语手势识别技术有助于聋哑人与非聋哑人之间的智能交流。然而,现有的哑语手势识别算法仍然存在识别复杂手势困难、动态手语识别准确率低、视频序列数据训练中存在潜在问题等缺点。因此,提出一种适度且高精度的哑语手势识别算法是哑语手势识别领域的一个至关重要的研究课题。在现有的哑语手势识别算法中,主要有以下问题:(1)手语动作一般是由一连串的有序动作组成的,并且各动作之间是一种连贯的规律动作,所以,哑语手势识别算法只针对静态手语动作很难准确地识别一般具有复杂变化规律的哑语手势。(2)目前的研究热点是采用计算机视觉技术,利用深度摄像头采集视频流信息,哑语手势识别算法通过分析丰富的特征信息来分类特定的视频序列。由于采集的视频流中身体躯干部位所占的比例较大,所研究的重点对象手部相对来说比较小,如何处理手部运动在身体背景影响下的哑语手势动作识别也是一个难点问题。(3)另外,如何从视频序列中提取最有效的特征,也存在挑战性。对已有的特征进行分类也需要一个合适的分类器来配合完成。因此,设计一个高精度的哑语手势特征分类器也是一个重点难题。为了解决以上提出的难点问题,针对视频序列的RGB信息和骨骼信息,基于卷积神经网络和循环神经网络,本文提出的哑语手势识别算法有以下三点贡献:(1)提出一种基于深度三维残差神经网络和双向长短时期记忆网络的多模态动态手语识别方法,称为BLSTM-3D残差网络(简称B3D ResNet)。该网络模型用于从视频序列中提取时空特征,并在特征分析后建立对应于视频序列中每个动作的中间分数。通过设置分数阈值判定视频序列所属的类别,通过分类器对其分类和识别。(2)提出了一种基于Faster R-CNN模型的目标分割方法,将视频序列分成单帧图像,检测并定位手部位置,目的是为了减少网络模型的计算时间,提高模型的训练速率,并且减少身体背景对手指运动的影响。(3)提出了一种针对骨骼序列的关键帧提取算法,将关键帧看作是哑语手势视频序列的基本组成单元,提取视频序列关键帧,从视频序列中提取最有效的特征,可以大幅度地减少数据量,也能减少模型的计算复杂度。本文提出的网络模型共同训练RGB数据和骨骼数据,用同一个网络模型提取同一个手势动作的RGB信息特征和骨骼信息特征,同一个分类器对RGB信息特征和骨骼信息特征进行分类并得到一个预判分数值,对RGB数据和骨骼数据这两种数据类型赋予相应的权重,最后计算最终的分数值,分数值大于阈值的样本数据判定为真,从而达到识别哑语手势的目的。为了验证文中所提出算法的有效性,本文选择以下四个数据集:DEVISIGN_D数据集、SLR_Dataset数据集、DHG-14/28 Dataset数据集和SHREC’17 Track Dataset数据集,分别进行了模型训练与分类。与现有的哑语手势算法进行比较,本文的对比实验结果表明,所提出的哑语手势识别算法能获得相对较高的识别准确率。