融合多模态数据的动态手语识别研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:dx0746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语识别技术在改善聋哑人日常交流和推动社会和谐发展过程中扮演着重要角色。基于孤立词的手语识别技术是国内外研究学者的热门研究领域,虽然已经取得了不错的成绩,但仍然存在一些问题与挑战,主要体现在:(1)现有模型结构对输入数据的尺寸有严格规定,极大限制了模型的普适性;(2)浅层的模型结构很难胜任动态手语识别这类较为复杂的建模任务,模型很难自主聚焦于对识别性能起关键作用的显著特征,较多无用特征限制了模型的识别性能。(3)早期的多模态特征融合多以特征拼接、加权的方式进行,这不仅会造成大量的冗余特征,还会增加额外的参数和计算量,从而降低模型推理速度和识别性能。本文重点针对以上三个问题进行研究,通过构建有效的多模态动态手语识别系统来提高手语识别性能。本文主要的创新和贡献如下:1.针对问题(1),本文在3D卷积神经网络的基础上引入时空金字塔池化(Temporal-Spatial Pyramid Pooling,TSPP)模块,构建了多模态手语识别模型TSPPC3D,解决了模型训练过程中对输入数据尺寸限制的难题,实现了对任意尺度数据的建模和识别。同时还减少了额外的复杂操作,增加了训练数据。在公开的手语识别数据集上的识别准确率达到了87.4%,相比原始C3D模型提高了12.7%。2.针对问题(2),本文将3D卷积结构和残差网络相结合,通过引入时间-通道-空间注意力机制(Temporal-Channel-Spatial Attention,TCSA)来构建多模态手语识别模型Res3D-TCSA,解决了模型深度增加导致的梯度消失而限制模型性能的问题,通过注意力机制自动分配不同特征的权重来关注显著特征,提高手语识别率。该模型在公开的手语识别数据集上识别准确率达到了89.4%,相较C3D模型提高了14.7%,并且比目前现有手语识别最佳方法的准确率高出0.7%。3.针对问题(3),本文提出了一种基于典型相关分析的多模态融合算法,分别构建了多模态手语识别模型TSPP-C3D和Res3D-TCSA,在保留了不同模态数据特有特征的基础上,利用多模态特征之间的相关性建模,从而提升了手语识别的准确性。TSPP-C3D的多模态识别准确率相较于RGB数据和深度数据分别提高了2.1%和3.2%,Res3D-TCSA相较于RGB数据和深度数据的准确率分别提高了1.0%和1.8%。
其他文献
<正>2022年8月3日,《财富》发布最新世界500强企业排行榜,我国共有145家企业上榜,超过美国的124家企业,成为世界第一。毫无疑问,世界500强企业是这个星球上最为顶尖的企业,而入围这个“矩阵”的中国企业无疑成为国内企业塔尖上的“明珠”,那么,入围世界500强的中国企业意味着什么?又会给我们什么样的启示?
期刊
任督二脉灸疗法是集艾灸与药物于一身并对经络进行刺激的一种综合治疗方法,其具有施灸面积大、灸量足、渗透力强,治疗范围广泛的特点。区别于其他艾灸疗法,任督二脉灸疗法贯通任督,调和阴阳的整体调节作用尤为突出。通过分析任督二脉循行路线的贯通性,任督二脉与阴阳和三焦的整体关系以及任督灸疗法“穴、药、灸”三位一体的综合治疗方式,进而阐明任督二脉灸疗法“整体调节”优势的理论基础。
期刊
目的:探讨在尿毒症血液透析患者护理中联合运用个体化运动和针对性护理干预的效果,以及其对患者营养状态及生活质量的改善作用。方法:选择2020年1月至2021年12月于我院接受血液透析治疗的尿毒症患者60例,随机分配为常规护理干预的对照组(n=30)与联合运用个体化运动和针对性护理干预观察组(n=30),采集患者静脉血液测定其护理干预前后的前白蛋白(PAB)、白蛋白(ALB)、血红蛋白(Hb)水平以评
期刊
粘度作为一个必要的微环境参数,在一定程度上控制着分子物种在细胞中的扩散过程,如信号传递、酶催化和生物分子相互作用。然而异常的粘度会导致代谢紊乱和疾病产生,如:炎症、高血压、动脉粥样硬化等疾病。据报道,正常细胞内的粘度约为1-2 c P,而在病理性的细胞内粘度可达到140 c P甚至更高。然而目前大多数报道的粘度荧光探针由于其发射波长短及较高的背景荧光等影响,使其很难应用在实际生物系统中。因此,设计
学位
重复经颅磁刺激(repetitive transcranial magnetic stimulation,rTMS)是一种无创的神经调控技术,已经广泛应用于治疗抑郁症、偏头痛等疾病。rTMS不仅能影响刺激靶点附近的神经元活动,还能够调控与其存在网络连接的远隔脑区(也称效应区域)的脑功能。曾有研究采用功能磁共振成像(functional magnetic resonance imaging,fMRI
学位
树立大食物观,构建多元化食物供给体系,对保障粮食和各类食物有效供给、保障粮食安全具有重要意义。本文以习近平总书记“大食物观”为引领,构建粮食安全评价体系,结合主客观赋权方法,在区划食物主产区、非主产区的基础上,对2009-2020年中国各省级行政区的粮食安全水平进行科学测算,探索制约不同区域粮食安全水平继续提高的相对短板。结果表明:当前各省级行政区已全部迈入粮食安全的“安全”及以上行列,保障食物供
期刊
商业银行对我国金融体系稳定起到至关重要的作用,银行间的风险传染效应是引起银行业系统性风险的重要因素之一,因此,对金融业风险传染的识别和监管离不开对银行体系风险传染特征的研究。风险传染的核心问题在于研究不同金融变量之间的相关性程度和相关性结构,但是不同的相关结构可能对应相同的相关系数,因此,基于相关系数表征的风险传染研究方法将会无法区分不同的相关性结构,从而导致对风险传染的识别性能下降。本文将市场行
学位
功能性胃肠病是一组缺乏器质性改变的胃肠疾病,本文选择功能性消化不良、肠易激综合征、功能性便秘3种常见相关疾病,总结目前针灸治疗功能性胃肠病的循证医学证据;并针对针灸治疗上述功能性胃肠病存在的不足,从针灸标准化方案、统一评价体系与针灸医师资质等方面对未来发展进行展望。
期刊
随着摄影技术的不断发展,人类逐渐进入读图时代。在此形势下,新闻单位在报道各类事件的过程中,增强了对新闻图片的运用,进一步提高了新闻报道可读性,并有利于挖掘新闻事件包含的内在价值。为了能够让新闻效果得到进一步加强,摄影记者需要提高新闻摄影作品的视觉冲击力和形象感染力。
期刊
自适应滤波算法是根据系统传输信号的变化自适应调整滤波器权值的信号处理方法,其一直是滤波器技术的研究重点。基于线性系统设计的传统自适应滤波算法能够有效解决输入输出为线性关系的滤波问题。但是实际应用系统大部分为非线性系统,并且这些非线性系统中广泛存在非高斯噪声干扰,在这种情况下传统线性自适应滤波算法会遭遇性能下降甚至不可逆的退化。核自适应滤波器是一类强大的非线性滤波器,可以有效解决非线性系统滤波问题。
学位