基于注意力机制和时间卷积网络的唇语识别方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:nihao136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别的目的在于利用视觉信息弥补听觉通道的不足,广泛应用于监控视频语音还原、噪声环境语音增强等领域。唇语识别的挑战体现在其涉及两种感知通道的转换,唇语本身具有多义性、多样性,以及唇部细节视觉特征的表示与理解,也是导致现有的唇语识别技术仍面临着流畅度不高、可懂度低等问题的原因。改善这一问题的关键在于如何获取更丰富的唇部变化的细节信息并挖掘其时空相关性。为此,本文从注意力机制和多分支时间卷积网络两个方面开展唇语识别研究,提高了整体精度和识别速度,具体内容如下:1.基于注意力机制的唇语识别方法。为了更有效地学习到不同发音时,唇部动作变化中的重点时空特征,本文设计了融入空间注意力的残差网络和融入时间注意力的时间卷积网络。融入空间注意力的残差网络使模型在提取特征时能够更加关注唇部区域变化;融入时间注意力的时间卷积网络使模型在处理序列时能够更加关注关键时间节点,得到具有时间关联性的时间特征信息。加入时空注意力模块后的网络在中文数据集LRW-1000上获得了60.11%的准确率,优于其他唇语识别方法。2.基于多分支时间卷积网络的唇语识别方法。本文提出多分支时间卷积网络来解决部分发音唇部动作相似度较高的问题。多分支时间卷积网络可以在同一层捕捉到不同尺度的特征,获取到长期及短期的丰富信息;此外,将3D时空卷积分解为三维空间卷积和三维时间卷积,在保证特征稳定获取的同时在一定程度上控制了网络的规模和参数量。改进后的唇语识别算法在中文数据集LRW-1000上获得了60.94%的准确率,同时也降低了计算复杂度和参数数量。
其他文献
本文以服务区监控视频数据为基础,建设车辆、人员专题数据库,从服务区运营管理者角度对比分析车辆和人员各类属性特征,发现服务区内车流、人流变化规律。
期刊
目的:探讨PCSK9抑制剂对心肌缺血再灌注后无复流现象的影响及其通过线粒体自噬减少心肌缺血再灌注损伤后无复流的机制。方法:选取8-10周龄(250-300g)Wistar雄性大鼠,随机分为假手术组、心肌缺血再灌注组(I/R组)和心肌缺血再灌注+PCSK9抑制剂组(I/R+P组)。通过构建大鼠缺血再灌注模型,观察固定缺血时间0.5h(假手术组除外),再灌注8h后,硫黄素S染色检测心肌无复流面积、TT
学位
目标跟踪是众多视觉任务中的热门研究课题之一,广泛应用于智能交通、安防监控和国防军事等诸多领域。近年来,基于孪生网络的目标跟踪方法因其优越的性能与效率吸引了大量研究人员的关注。然而,真实跟踪场景下存在的众多挑战性因子容易导致跟踪漂移或者失败。为了提升算法抵御各类干扰因子的能力,本文在Siam RPN框架的基础上提出了基于注意力特征优化的改进算法。本文的主要研究成果如下:1.针对当前大多数孪生跟踪方法
学位
缺陷检测是一项重要而又具有挑战的任务,传统做法是通过人眼对缺陷部位进行检测识别,这种方式非常耗时,存在较大主观性,且极其考验检测人员的耐性。因此,自动化缺陷检测方法和技术的研究逐渐引起了更多学者的关注。但自动化缺陷检测算法存在模型参数量大、准确度不够高等问题。本文围绕上述问题开展的主要工作如下:1.针对缺陷在图像中占比低、对比度低、连续性差等特性,以及现有自动化缺陷检测模型的推理速度不够快等问题,
学位
煤炭是我国主要的能源之一,保障煤矿的安全生产是煤炭行业的主要目标之一。矿井下的传送带区域是煤矿生产的一个危险区域,时常有工人违规操作,极易导致安全事故的发生。由于煤矿环境的特殊性,目前煤矿下视频监控技术的发展并不成熟,不能对传送带区域容易发生的违章行为和事故进行管控。因此,本文针对煤矿井下传送带区域内人员和传送带的状态监测的现存问题进行研究,提出了一种基于此场景监控视频的协同分析方法,并利用该方法
学位
作为一种自然界中资源最丰富的天然高分子材料,植物纤维由于其价格低廉、可再生、可降解等优点以及对水泥产品良好的力学性能提升效果,被认为是建筑材料中传统纤维的有效替代产品之一。然而,植物纤维在水泥孔隙溶液碱性环境下的劣化行为在很大程度上制约了植物纤维在水泥基材料中的广泛应用。因此,研究植物纤维在水泥孔隙溶液中的劣化行为并开发有效的耐久性调控技术具有重要意义。鉴于此,本文采用模拟的简化水泥孔隙溶液与真实
学位
报纸
随着我国电商行业的发展,各大电商平台需要更加个性化、智能化的方法提升平台的收益以及用户的购物体验。对用户的消费偏好的研究可以准确预测电商平台广告点击率,从而有效实现精准营销和个性化推荐。本文从电商平台用户历史行为序列和商品特征属性两个方面出发,深入电商平台用户、商品特征隐藏的用户兴趣研究。本文贡献总结如下:1.基于用户行为序列特征层面,针对传统循环神经网络处理时序数据的优势但忽略输入序列时间间隔的
学位
社交媒体是互联网飞速发展的产物之一,民众通过社交媒体交流信息已变成日常生活中必不可少的一件事情。微博作为热门的社交媒体之一,其特点是使用方式简单便捷、实时性高以及传播迅速,并因这些特点成为了国内民众表达情感和分享日常的重要渠道。微博拥有十分庞大的用户群体,每天都能产生海量含有民众情感的微博文本,微博文本成为了国内舆论走向的代表之一,因此对微博文本进行情感分类研究,可以挖掘出微博文本中的情感信息应用
学位
不平衡分类问题一直是机器学习、模式识别和数据挖掘领域的研究热点。目前分类器大多都是基于平衡数据集进行设计的,因此对不平衡数据集,其分类结果往往偏向多数类,降低了模型的泛化性能。面对现实生活中大量的不平衡数据集,如何从中学习到拟合能力较强的模型具有十分重要的现实意义与应用价值。目前,有许多采样和代价敏感学习等方法可以减少不平衡数据对分类性能的负面影响,其中采样中的过采样方法是最常用的一种数据预处理方
学位