论文部分内容阅读
唇语识别是计算机视觉领域中一个富有挑战性的研究课题,其主要目的是从视频中观察人嘴唇运动识别出对应文本内容。然而,由于嘴唇变化局限性和语言内容丰富性,增加唇语识别难度,使得唇语研究课题发展缓慢。如今,深度学习在各个领域的发展,给我们足够的信心来完成唇语识别这个任务。不同于传统的唇语识别中的嘴唇特征识别,在基于深度学习的唇语识别,通常包含使用深度网络模型对图像的特征提取和理解。在本课题中,我们重点研究了唇语识别的数据获取、处理和识别网络框架的设计等内容。在唇语识别研究中,本文作为第一个基于深度学习的中文句子级别的唇语识别的研究课题,采用半自动生成方法生成一个中文唇语数据库CCTVDS,样本数量为14975,共7.25GB。并且,在研究过程中,还新增加了269558条拼音汉字样本数据集,促进网络模型的训练。在唇语识别的实现过程中,我们分别从图像和语言模型两个方面入手,一是采用基于VGG-M的卷积神经网络和循环神经网络RNN的深度网络模型,二是采用基于语言模型的Encoder-Decoder框架的深度网络模型。本文根据研究内容将中文唇语识别划分为两个不同的处理过程,分别得到不同的子网络结构。先利用改进的VGG-M的卷积神经网络ConvNet对嘴唇图片序列进行特征提取,再利用长短时记忆网络(Long Short-Term Memory,LSTM)理解图像特征并转换为对应的拼音字符序列,这个过程设计了一个P2P(Pictures to Pin Ying)网络模型;然后,使用基于语言模型的Encoder-Decoder网络将拼音序列语句转换为中文汉字序列语句,Encoder网络先对拼音字符序列进行特征编码,Decoder网络对特征再进行解码得到汉字序列,这个过程构建了P2CC(Pin Ying to Chinese Characters)网络模型;最后,根据研究内容提出了一个基于CNN和RNN的混合神经网络结构ChLipNet。在CCTVDS数据集上的实验结果表明基于深度学习的唇语识别比传统的唇语识别(采用PCA、HMM等)有明显的优势。另外,我们提出的ChLipNet网络模型降低了中文唇语的识别难度,在句子级别的中文唇语识别中达到句子准确率46.7%和准确率拼音58.5%,略微优于目前英语唇语识别的最好网络模型的实验结果。