基于注意力机制的多模态手势定位与识别研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:anlanyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机交互是智能科技高速发展的当代社会的一个重要研究领域。而手势交互的研究在人机交互领域中拥有着不可或缺的重要地位。多模态交互技术是人机交互领域的关键研究内容之一。本文首先针对单任务即手势识别问题进行多模态最优融合的研究。因现有手势识别模型存在识别精度低下,鲁棒性差等问题,本文提出基于混合注意力机制的多模态信息融合方法,充分利用多模态信息间的互补性高精度地完成识别手势任务。本文继而针对多任务即手势定位与分割问题进行相关的多模态融合研究。因现有多任务模型存在对不同任务间和多模态信息间的关联性利用度差等问题,本文提出基于注意力机制的多模态手势定位与分割模型方法,自适应地融合任务相关的多模态信息来高效地完成多个任务学习。本文研究有助于计算机系统在人机交互过程中更好地理解人类意图,具有一定的应用价值。具体研究内容如下:1.针对单个模态进行相关特征提取问题,本文应用卷积神经单元和全连接神经单元分别为单个视频模态,音频模态,和骨骼模态搭建各自的特征网络模型,以提取不同模态的特征表示作为后续单任务多模态融合的模型输入基础。2.针对在单任务学习情况下的多模态融合问题,本文提出了基于混合注意力机制的多模态融合方法进行手势识别,以充分利用多模态信息之间的关联性并实现多种信息之间的相互补充。首先,针对多维特征信息间的融合提出交叉注意力机制,以实现多维特征的相互增强。其次,针对一维表征和多维表征间的融合提出单向注意力机制,用于平衡不同维度模态之间的相关性和冗余性。实验结果表明,基于混合注意力机制的多模态融合方法与Baselines相比,其手势识别精度最优,最优达到96.05%。3.针对在多任务学习情况下的多模态融合问题,本文提出了基于注意力机制的多模态融合模型来进行手势定位与分割,以实现多任务协同训练的同时,得到不同任务对应的多模态特征信息组合。首先利用自适应交叉机制中的特征交叉机制根据共享特征得到不同的任务特征组合,找到与任务相关的多模态特征群;其次使用自适应交叉机制中的通道注意力机制学习强化多模态特征,实现模态的感知强化作用;最后使用软注意力机制动态调节不同任务在模型训练期间的重要性,以帮助模型平衡优化多个目标函数。实验表明,本文的CCSM模型的定位任务MSE为0.00142,分割任务的精度值为0.95255,Io U为0.79623,在两个任务上的表现均优于所对比的多任务方法。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
重磁地球物理勘探具有难度低、成本低等优点,广泛应用于各种矿产资源的勘探。然而重磁反演很难得到能准确地反映地下目标结构和物性的模型,而反演模型是地质解释的基础之一。本文提出了模糊C-回归聚类(FCM)算法的联合反演方法,联合重磁反演提高重磁反演的效率和反演结果的可靠性,对于有色金属矿山重磁法勘探具有一定实际参考价值。本文主要研究工作和成果如下:(1)分析了经典Tikhonov正则化反演的模糊C-均值