论文部分内容阅读
手语识别是一个涉及模式识别、计算机视觉、自然语言处理和人工智能的多学科研究领域。结合日益发展的深度学习方法,手语识别模型的性能指标会得到大幅度的提高,手语识别系统的智能化程度也会进一步加强,有利于搭建聋人与健听人之间交流的桥梁,使聋人更好的融入社会。本文深入研究多模态手语识别技术,针对手语视频中的手势动作尺度小、分辨率低等问题,提出了一种非常有效的、端到端的手语识别算法,在目前公知的数据集上得到了高性能的识别结果,并进行了一定的应用。本文的主要研究内容和贡献如下:(1)深入探究了传统光流提取算法以及基于神经网络的光流模型,提出了一种深度运动特征提取网络D-shift Net,充分挖掘手语深度视频图像帧之间的运动信息,实现了端对端的高效深度运动特征提取。实验结果表明,D-shift Net能利用深度图像对光照与颜色的不敏感性以及对运动信息的关注,显著提高手语识别的准确率。(2)提出了一种基于RGB-D多模态输入的时空双流手语识别算法,该算法模型主要包含多模态采样ARSS、具有局部聚焦的空间流、提取深度运动特征的时间流和卷积融合四个模块。使用ARSS获取时空对齐的RGB与深度图像,使用骨骼数据对RGB图像进行手部ROI的局部聚焦;通过D-Shift Net提取运动信息;再与局部聚焦后的RGB图像进行特征提取与融合,从而提供更加鲁棒的分类特征。实验表明,本文提出的多模态时空双流算法有效地捕获了高层视觉理解所需的本质特征,提高了分类的精度和性能。(3)设计了基于RGB-D双流网络的手语识别检索系统。该系统可以采集手语视频并上传至数据库中,完成高效高精度的手语识别;并支持通过关键词查询标准手语动作,播放演示视频。本系统为手语识别技术的应用提供了可行的方案。