基于深度学习的手语识别算法研究及应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:pioneerp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语是聋哑人与社会交流的主要方式,它以视觉为媒介,主要包括人的手势、身体姿势和面部表情等,通常以视频的形式展示和收集。视频手语识别旨在将手语视频转换为单词(孤立词手语识别)或句子(连续手语识别),以促进普通人与聋哑人之间的沟通交流。此外,随着机器人技术的发展,手语识别在人机交互中的应用也引起了学者的广泛关注,如面向聋哑人的机器人服务认知。手语识别存在以下难点:(1)手语动作的正确识别依赖于对手语视频中静态场景和动作信息的时空建模;(2)手语视频中具有冗余的空间和时间信息,模型需要从中筛选出与手语动作相关的信息;(3)手语识别的进一步目标是实现连续手语即手语句子的识别,这依赖特征序列的长距离建模;(4)对于模型的实际应用来说,保持模型精度和轻量性的平衡也是一个难点。针对手语识别中时空建模的问题,本文提出一种基于深度三维卷积神经网络(3-dimensional convolutional neural networks,简称 3D CNNs)的孤立词手语识别方法。3D CNNs具有从低级到高级进行时空建模的能力,避免了传统手工提取特征的低效以及二维卷积方法所必需的事后时间信息融合。通过使用三维残差网络(3-dimensional residual network,简称R3D)进行手语视频片段的时空特征提取,并基于迁移学习进行模型参数的初始化,然后通过随机采样获得固定长度的视频片段并输入到模型中进行端对端训练,最后完成孤立词手语的识别。为解决手语视频中时空冗余信息的问题,本文提出一种基于全局信息、自注意力和多尺度时空卷积的时空-通道注意力(spatial-temporal-channel attention,简称STCA)模块。STCA模块由两个子模块即通道-时间注意力(channel-temporal attention,简称CTA)模块和空间-时间注意力(spatial-temporal attention,简称STA)模块组成。两个子模块可以联合起来完成时空-通道维度的注意力建模。通过将该模块嵌入到R(2+1)D(R3D的时空分解版本)中,模型可以提取更多与手语动作相关的显著性特征,抑制无关特征和冗余信息的干扰。针对传统基于循环神经网络(recurrentneural networks,简称RNNs)的连续手语识别方法的长距离依赖问题,本文提出基于R(2+1)D与Transformer的连续手语识别方法。首先使用预训练R(2+1)D提取时空特征序列,经过位置编码后将特征序列输入到完全基于自注意力的具有全局建模能力的Transformer中,最后完成手语视频与文本句子的映射。同时,在模型训练过程中分别使用标签平滑正则化和余弦学习率衰减策略防止过拟合和促进模型收敛。为解决手语模型应用中轻量化的问题,本文提出一种名为随机知识蒸馏(random knowledge distillation,简称RKD)的基于多教师网络的知识蒸馏方法,通过在多个教师网络中随机选择一个教师模型的软标签作为轻量学生网络训练过程中的额外指导,将重型网络中的知识迁移到轻量网络3D MobileNets、3D ShuffleNets和X3Ds中,并将其应用于人机交互场景下的基于手语指令的机器人服务认知中。本文所提出方法在多个数据集上进行了实验与分析并进行了基于手语的机器人服务认知仿真实验。实验结果表明,与手动提取特征和二维卷积相比,三维卷积具有良好的时空特征提取能力,可以大幅提高手语识别模型的性能;R3D在进行时空分解为R(2+1)D并嵌入时空-通道注意力模块后能够关注于与手语相关的显著性特征,并有效提高模型性能;与基于RNNs的连续手语识别模型相比,基于Transformer的连续手语识别框架可以获得更低的词错误率,证明了全局建模在连续手语识别中的作用;经过RKD知识迁移后得到的轻量模型可以在大幅降低参数量和计算量的同时获得与重量模型相当的性能;基于Assistive Gym框架的仿真实验表明,轻量手语识别模型可以应用于人机交互中。
其他文献
随着居民饲养的宠物不断增多,每年病死的宠物数量也不断攀升。病死宠物尸体如处理不当,会增加动物疫病传播风险,危及公共卫生安全。为对病死宠物无害化处理有客观的认识,科学对待,该文基于现阶段病死宠物无害化处理现状及存在的问题,简要分析开展工作的对策。
期刊
飞行时间质谱仪(TOFMS)检测质量范围宽,灵敏度和分辨率高,可在较短时间获取全部质量数范围的所有谱图信息。便携式质谱仪器已被广泛地应用于包括大气环境快速监测,化工产品过程实时监控、临床医学、工业设施检漏在内的很多领域。本文工作研制了一台基于真空紫外光(VUV)电离的便携式TOFMS,优化并评价了实验室自研的便携式TOFMS的性能。该仪器尺寸为400×340×250 mm,重17 kg,检测质量范
学位
大气细颗粒物(Fine Particulate Matter,PM2.5)作为当前最重要的大气污染物之一,能够对人体健康、辐射平衡和全球气候产生深远影响。沿海地区是位于陆地和海洋之间的特殊地带,大气颗粒物的化学组分和光学特性因受到多种污染源的相互作用而极具独特性和复杂性。然而,当前对沿海地区PM2.5研究的不足阻碍了对气溶胶组分、理化特性及源汇机制的全面认识,难以准确评价大气气溶胶的环境和气候效应
学位
随着全球范围内环境污染问题日益严峻,发展节能环保的新能源汽车成为汽车产业发展的主要方向。其中,插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,PHEV)融合了纯电动汽车低排放以及传统内燃机汽车长续驶里程的优势,成为我国新能源汽车“三纵三横”研发布局中的重要发展方向之一。能量管理策略作为PHEV关键技术之一,其通过在发动机和电动机之间优化分配功率流,从而实现整车高
学位
介绍了农业机械自动化的应用和农业机械自动化维修技术,探讨了农业机械自动化应用与维修管理的强化措施。
期刊
在国家碳达峰和碳中和目标以及新型电力系统建设的要求下,我国风电渗透率逐年提高。而风电转子转速与系统频率解耦,且同步机数量减少导致系统惯量降低,仅依赖传统同步机承担系统调频任务已不能满足频率安全的要求,电网频率安全遇到了挑战,因此系统要求风电具有一定调频能力。同时风电机组桨叶中蕴含着可观的转子动能,调频经济性较高,有潜力成为未来电力系统的调频主力。抽水蓄能因其具有经济性优、可大规模发等特点是十分优秀
学位
直流充电系统是电动汽车的重要支撑系统,是解决“充电难”、“充电慢”和实现电动汽车进一步推广发展的关键条件。直流充电系统多为两级式结构,即前级AC/DC+后级DC/DC,其中,后级DC/DC变换器与电动汽车动力电池直接相连,是直流充电系统的核心组成部分,对充电系统性能、安全和可靠性都有重大影响。LLC谐振变换器因具有软开关范围广、功率密度高、EMI干扰小等优势,多被应用作为后级DC/DC拓扑,在电动
学位
随着社会的发展和人类活动范围的扩大,抗生素等有机污染物近年来在水环境中被广泛地检测出来,给人类健康及生态环境带来了极大地威胁。作为一种新型的高级氧化方法,等离子体水处理技术综合了活性粒子氧化、高能电子轰击、光催化及强电场电解等多方面作用,具有反应迅速、非选择性、处理效率高、无二次污染等优点。目前已经在实验室条件下对其进行了深入探究并实现了局部范围的应用。然而能耗高、产物不明确等缺点限制了等离子体水
学位
随着现代工业的巨大进步,传统燃油车发挥着不可磨灭的作用,但同时也带来了能源危机和环境污染等问题,节能减排的呼声越来越高。新能源汽车是我国发展的重点领域,也是实现“碳中和”目标的重要手段。目前,电动汽车(Electric Vehicle,EV)是新能源汽车的发展主流,前景广阔。锂离子电池作为电动汽车的能量来源与储能装置,易受环境温度影响,特别是低温环境下电池性能急剧下降,电动汽车续航里程大打折扣,严
学位
随着社会的发展与科技的进步,家用机器人被越来越多地投入到人们的家庭生活。近年来,用户对于生活质量的要求逐步提高,导致服务需求愈发复杂,环境布局愈发多样。面对复杂多样的服务需求与家庭环境,如何通过用户自然语言请求获得详细具体、贴合环境的任务流程相关文本描述,即服务策略,是家用机器人提高服务质量的关键所在。因此,本文对面向家用机器人的环境适应性服务策略进行了相关研究,提出任务解析-策略生成-优化验证框
学位