基于RGB-D双流网络的手语识别技术研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:lyt0821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语识别是一个涉及模式识别、计算机视觉、自然语言处理和人工智能的多学科研究领域。结合日益发展的深度学习方法,手语识别模型的性能指标会得到大幅度的提高,手语识别系统的智能化程度也会进一步加强,有利于搭建聋人与健听人之间交流的桥梁,使聋人更好的融入社会。本文深入研究多模态手语识别技术,针对手语视频中的手势动作尺度小、分辨率低等问题,提出了一种非常有效的、端到端的手语识别算法,在目前公知的数据集上得到了高性能的识别结果,并进行了一定的应用。本文的主要研究内容和贡献如下:(1)深入探究了传统光流提取算法以及基于神经网络的光流模型,提出了一种深度运动特征提取网络D-shift Net,充分挖掘手语深度视频图像帧之间的运动信息,实现了端对端的高效深度运动特征提取。实验结果表明,D-shift Net能利用深度图像对光照与颜色的不敏感性以及对运动信息的关注,显著提高手语识别的准确率。(2)提出了一种基于RGB-D多模态输入的时空双流手语识别算法,该算法模型主要包含多模态采样ARSS、具有局部聚焦的空间流、提取深度运动特征的时间流和卷积融合四个模块。使用ARSS获取时空对齐的RGB与深度图像,使用骨骼数据对RGB图像进行手部ROI的局部聚焦;通过D-Shift Net提取运动信息;再与局部聚焦后的RGB图像进行特征提取与融合,从而提供更加鲁棒的分类特征。实验表明,本文提出的多模态时空双流算法有效地捕获了高层视觉理解所需的本质特征,提高了分类的精度和性能。(3)设计了基于RGB-D双流网络的手语识别检索系统。该系统可以采集手语视频并上传至数据库中,完成高效高精度的手语识别;并支持通过关键词查询标准手语动作,播放演示视频。本系统为手语识别技术的应用提供了可行的方案。
其他文献
多机器人持续监控问题一直是当今社会研究热点,其可应用于众多领域,不但将人从复杂危险的环境替代,而且使得任务域监控效率得到很大提升。多个机器人可以协同对任务域进行持
微纳光纤传感器将微纳加工与光纤传感技术有机结合,具有重大的科研意义和产业化潜力。然而现有的加工技术无法在光纤端面实现任意复杂三维结构的制备,因而限制了微纳光纤传感
社会的不断发展与进步使得人类生活变得越来越方便,但与此同时也无法避免的带来了严重的环境污染问题。其中,大气污染不仅会气候、工业、农业等产生不良影响,更会对人体健康
互联网技术的飞速发展使得当今进入大数据时代,爆炸性增长的数据量也使得“信息过载”问题日益严峻,如何快速高效地从过量信息中筛选过滤出有用信息成为当前困扰人们的一个难
基于视频数据的智能跟踪与目标行为分析等技术目前已经成为了智能交通系统中的新兴研究方向,借助计算机对监控网络下的视频序列进行信息学习与组合,可以有效判断目标车辆的行
近年来,固体废弃物填埋产业发展迅速,随着各城市垃圾清运量的快速增长,固废填埋场的灾害隐患逐渐突显。固废填埋场服役环境极端、运行负荷大,极易引发滑坡、火灾、渗滤液扩散
缆索系统作为缆索桥梁最主要的受力结构,在受车辆荷载和复杂自然环境作用下,一旦出现损伤,将不可避免地降低缆索桥梁的安全性、适用性和耐久性。因此,桥梁缆索损伤断丝监测和
柔性压力传感器在可穿戴电子、医疗保健和智能终端等领域已经有了广泛的应用,在人工智能(AI)和物联网(IoT)等新技术领域发展也十分迅速。因此,正如最近的研究所揭示的那样,柔性压
章动面齿轮传动综合了章动齿轮传动和面齿轮传动的优点,是在外切面齿轮与内切面齿轮所构成的共轭啮合齿轮副(简称“面-面”齿轮副)的基础上,结合章动原理而形成的一种新型传
为了提升真空断路器电机操动机构性能,降低合闸时动触头碰撞损耗和弹跳时间,并为储能电容充电,本文以126kV真空断路器电机操动机构为研究对象,设计了真空断路器电机操动机构