论文部分内容阅读
机器唇读,是一种非常新颖,只使用视觉信息即可理解讲话内容的技术。唇读识别是人工智能和计算机视觉领域重要的研究课题,借助唇部特征的辨识,可将其应用在后天聋哑人士的语言功能重建、刑事侦查、身份认证等领域。人工智能在现代社会的各个学科和领域中已经得到了广泛地应用,在各个领域都取得了很好的效果。以深度学习为核心的人工智能技术克服了一般机器学习方法中人工提取特征的困难,实现了机器自主提取特征的过程。唇读识别可以简单分为词语级和句子级两大类,词语级可以看做是判别式分类问题,而句子级可以看做是判别式序列到序列问题。目前,国内外已有学者开始研究自然场景下的唇读识别,并取得了一些成就,但研究的语言种类主要是英语。有关汉语的自然场景下的唇读识别研究目前鲜有触及。因此本文对唇读识别技术充分调研后,重点落在了自然场景下汉语唇读识别问题。本文的主要研究工作如下:1、对国内外的唇读识别技术进行了深入的对比研究,尤其是基于深度学习的唇读识别研究,初步确定了研究课题的整个工作流程。2、唇读识别领域取得进展的主要障碍之一是数据集的匮乏。目前英文唇读数据集也并不充分,可用的数据量远远不足以训练可扩展的模型。而汉语更是没有公开可用的数据集。基于这样的现状,本课题首先采用自动化的办法制作了汉语普通话唇读数据集TMLRD-20(Tianjin University Mandarin Lip Reading dataset20 hours),并详细给出了完整的制作流程。3、参考已有的在动作识别领域的研究成果,设计了几种词语级的唇读识别应用,并在LRW(Lip Reading Word)数据集上进行了测试,并给出了实验结果。这些设计也为后面句子级唇读识别应用设计特征提取前端提供参考。4、设计了基于改进的CTC(connectionist temporal classification)汉语句子级唇读识别模型,并在TMLRD-20上给出了实验结果和分析。识别结果表明该模型对于汉语句子级唇读识别应用具有可行性。5、设计了基于改进的Encoder-Decoder汉语句子级唇读识别模型MLRN(Mandarin Lip Reading Network),将该模型在TMLRD-20数据集和Grid数据集上给出了测试,实验结果表明该模型的性能要优于改进的基于CTC汉语句子级唇读识别模型的性能,并且在Grid数据集上也表现出非常有竞争性的识别结果。