多粒度唇语识别技术研究

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 0次 | 上传用户:yjsngmmsnjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别是指利用计算机视觉技术根据说话人讲话过程中唇部变化识别出说话内容的技术。要实现准确的唇语识别,需要克服许多挑战,包括说话过程中说话人姿态的变化、所说内容的多样性、以及说话时的光照条件等。针对这些挑战,本文以多粒度信息融合的唇语识别方法为核心展开研究。具体来说,一方面,许多词发音近似,导致说话过程中这些词对应的唇部变化较难区分。对此,本文针对各个时刻进行特征提取与增强,形成侧重表现各个时刻的局部空域变化的细粒度模式,增强不同词之间的差异性;另一方面,虽然不同人的说话习惯、姿态变化等可能各不相同,但同样的语音内容通常会引起具有一致性规律的面部变化。为此,本文提取各个近邻时空域内的显著性运动模式,构建视觉表达的中粒度模式,捕捉各个单词对应的面部变化规律;最后,本文通过引入前后时刻的关联性,提取从整个序列层面考虑的全局模式,形成能鲁棒应对不同说话习惯、视频中不同光照条件等非一致性的表达。本文主要完成了以下工作:1)协助构建了一个大规模普通话单词唇语数据集LRW-1000。考虑到深度学习算法离不开大规模的数据,本文标注了一个单词级的普通话唇语数据集LRW-1000,为本文的方法实验奠定了基础。该数据集包含1000个中文单词类别,共有超过70万个训练样本,形成了目前最大和最具有挑战的中文数据集。2)提出了一种多分支的多粒度时空模型。本文分别引入基于2D卷积神经网络、3D卷积神经网络与长短时记忆网络的模块,实现对不同粒度信息的有效提取,同时引入注意力机制实现对不同粒度信息的融合,完成鲁棒、准确的唇语识别,并在两个大型词级数据集上验证了该方法的有效性。3)提出了一种时空残差融合的多粒度模型。针对之前工作存在模型庞大、计算量大等问题,本文提出一个新的模型,在该模型中引入残差注意力机制,将基于2D卷积的细粒度模式和基于3D卷积的中粒度模式融为一个整体表达,并以该融合模块为基本单元构建深层模型,实现不同层级上不同粒度模式的提取,提高识别的准确率,并在多个数据集上的实验结果表明该方法取得了优良的效果。
其他文献
Point-of-care testing(POCT,现场检测)是体外诊断行业中一个重要的细分领域,POCT相比传统的体外诊断过程具有更高的效率。POCT设备具有体积小、造价低、集成化程度高、操作
物联网技术的快速发展促进了相关无线传感器的应用,其供电问题也受到人们关注。微波能量收集系统凭借其能全天候使用,工作时间长,维护成本低等优势,成为了一种新型的供电方式
车联网是物联网技术在交通系统领域的典型应用,可支持三类信息如安全信息、娱乐信息和功能服务类信息的投递。在车联网的应用中,地域群播可形成区域广播来投递商业广告,或发
随着交通大数据到来,交通数据的采集和分析更加容易,各种移动终端产生的实时位置、交通流量及行驶速度数据等已成为交通大数据的重要来源。为了有效利用交通数据,以提供准确
移动智能设备已经成为人们生活中不可或缺的部分。虽然移动设备的硬件一直在高速发展,但是依然不能满足日益增长的性能和低功耗需求。为了解决上述问题,一种被广泛认可的方案
随着区块链中区块的快速增长,区块链节点面临由于大量区块产生带来的大容量存储问题,优化区块链节点的存储是非常必要的。本文针对传统分片存储方案中存在的容量和安全问题,
伴随科学技术的迅猛发展,现代工业进入到前所未有的“高级发展阶段”。社会对工业产品现代制造业的要求也越来越高。在这个过程当中三维实体数字化检测技术也随之出现,实时、
随着数学课程改革的不断深入,对于课堂教学中的过程性评价越来越重视,书面化的指导在最新版数学课程标准中有所体现,与之相关的研究也成为目前的一个趋势,而其中教师课堂教学
目的:反应模式可以很好地体现出初中生的心理健康状况,从而成为了心理学界关注话题。有研究表明反馈方式和自尊会影响初中生经历失败后的反应模式。不同归因的反馈方式和不同
本文的研究目的是探索制备具有高表面增强拉曼散射(SERS)能力的贵金属(金、银、铜)水热碳基复合材料的实验方法,并研究它们的SERS效应和增强机理。内容主要包括以下三个部分: