论文部分内容阅读
唇语识别是指利用计算机视觉技术根据说话人讲话过程中唇部变化识别出说话内容的技术。要实现准确的唇语识别,需要克服许多挑战,包括说话过程中说话人姿态的变化、所说内容的多样性、以及说话时的光照条件等。针对这些挑战,本文以多粒度信息融合的唇语识别方法为核心展开研究。具体来说,一方面,许多词发音近似,导致说话过程中这些词对应的唇部变化较难区分。对此,本文针对各个时刻进行特征提取与增强,形成侧重表现各个时刻的局部空域变化的细粒度模式,增强不同词之间的差异性;另一方面,虽然不同人的说话习惯、姿态变化等可能各不相同,但同样的语音内容通常会引起具有一致性规律的面部变化。为此,本文提取各个近邻时空域内的显著性运动模式,构建视觉表达的中粒度模式,捕捉各个单词对应的面部变化规律;最后,本文通过引入前后时刻的关联性,提取从整个序列层面考虑的全局模式,形成能鲁棒应对不同说话习惯、视频中不同光照条件等非一致性的表达。本文主要完成了以下工作:1)协助构建了一个大规模普通话单词唇语数据集LRW-1000。考虑到深度学习算法离不开大规模的数据,本文标注了一个单词级的普通话唇语数据集LRW-1000,为本文的方法实验奠定了基础。该数据集包含1000个中文单词类别,共有超过70万个训练样本,形成了目前最大和最具有挑战的中文数据集。2)提出了一种多分支的多粒度时空模型。本文分别引入基于2D卷积神经网络、3D卷积神经网络与长短时记忆网络的模块,实现对不同粒度信息的有效提取,同时引入注意力机制实现对不同粒度信息的融合,完成鲁棒、准确的唇语识别,并在两个大型词级数据集上验证了该方法的有效性。3)提出了一种时空残差融合的多粒度模型。针对之前工作存在模型庞大、计算量大等问题,本文提出一个新的模型,在该模型中引入残差注意力机制,将基于2D卷积的细粒度模式和基于3D卷积的中粒度模式融为一个整体表达,并以该融合模块为基本单元构建深层模型,实现不同层级上不同粒度模式的提取,提高识别的准确率,并在多个数据集上的实验结果表明该方法取得了优良的效果。