论文部分内容阅读
唇语识别技术是指仅根据说话人唇部运动的视觉信息,从而识别出其所说的文本内容,目前在唇语交互控制、静音信息输入、噪声环境下的说话识别和静音视频的处理识别有着重要应用价值,对辅助身份验证、公共安全领域和帮助聋哑人沟通方面也有着很重要的研究意义。然而,唇语识别任务对人类而言难度极大,传统的机器学习方法和模型存在特征提取费时、识别效果欠佳等问题。传统方法需要花费大量人工来标记唇语视频数据,识别率取决于特征提取的好坏。而且中文唇语数据集不多,数据体量较小,基于这种小规模数据集的研究结果难以拓展到大数据集上,应用价值有限。针对以上问题,本文的主要思想是,先自建大量中文唇语数据集,再用多层STCNN和多层Bi-GRU的网络结构来提取唇语特征,进行端到端训练,从而实现句子级别的中文唇语识别。本文的主要研究内容及贡献如下:(1)实现了一个基于ios系统的客户端Lipreading Video来自建中文唇语数据集,该客户端支持不同用户录制唇语视频数据,用户可以根据客户端显示的文字录制唇语视频,并选择回看、重新录制或上传视频到服务器。系统采用VAD算法对采集到的中文唇语视频数据进行检测和分割,自动配上标记出说话人说每个词语的起始和结束时间戳;并利用基于Haar-like特征的AdaBoost级联分类器进行人脸检测,进而定位到人脸并提取我们所需的唇部区域。该方案能够批量标记唇语视频数据,节省了大量的人工量。(2)提出了一个端到端的中文唇语识别网络模型——ChineseLipNet,对于输入的唇语视频数据,先用多层STCNN提取特征,并用最大池化(Max-Pooling)进行特征降维,不用手工标记模型特征点,就能提取到非常好的特征。多层STCNN处理后输出到多层Bi-GRU对提取的特征进行训练,双向GRU结构能够同时学习上下文信息,输出该句对应的文本,最后采用一个全连接层和softmax进行预测输出。本文对所提出的网络模型进行了相关实验和对比分析。在唇语识别结果方面,将唇语识别模型ChineseLipNet与人类唇语识别和对比网络AlexNet模型、VGG模型进行对比分析。实验结果表明,本文提出的ChineseLipNet模型的识别准确率大幅度超过人类唇语识别的准确率,并且优于AlexNet模型和VGG模型。同时,ChineseLipNet模型网络参数规模更小,训练时间更短。因此,ChineseLipNet模型不仅适合训练大规模唇语数据集,而且更适合迁移到便携式终端设备进行识别,有较高的应用价值。