论文部分内容阅读
人类对语言的感知是多通道的,听力正常者在交谈的过程中也无意识的使用唇动、表情等视觉信息以辅助听觉能力。对于听力障碍者或噪声环境下的语言感知,视觉信息显得更加重要。计算机唇读技术正是在这样的背景下应运而生,它是指对说话者的口型变化等视频信息进行分析而识别出说话内容的过程。该技术涉及计算机视觉、人机交互、图像处理、模式识别等诸多领域,被广泛应用于与语音信息融合以提高识别率,也用于公共安全领域、生物特征识别和口型合成等。本文主要研究单视觉通道下基于孤立汉语字的唇读系统,从唇部区域检测、唇区特征提取及唇读训练和识别三方面展开研究,主要工作及创新如下:(1)在唇部区域检测模块,详细介绍了基于Viola-Jones的检测方法,该方法利用Haar like矩形特征作为特征模板,以Adaboost算法训练特征值,并用级联的方式得到强分类器以实现检测。本文将其用于人脸和唇区的检测,检测正确率达到了97%,为下一步处理打下了良好的基础。(2)特征提取是唇读技术的核心。本文提出了一种基于像素的4阶段级联的特征提取方法。该方法首先对唇区图像进行图像变换,接着针对不同的图像变换结果采用合适的方法选取需要的数据,然后进行数据降维,最后对降维后数据实现矢量量化,得到最终特征向量。实验结果表明该方法与单独使用基于像素的方法相比特征向量维度大大降低,DCT-PCA和DWT-PCA方法的最高识别率分别达到了72.8%和77.4%。(3)唇读训练和识别模块,分析了HMM模型用于唇读识别的可行性,对将HMM应用于唇读时所面临的模型类型选取、初始参数选择等具体问题做了详细的说明,并给出了利用HMM进行唇读训练和识别的过程,最后通过实验建立了合理的唇读HMM模型。(4)唇读数据库是进行唇读研究的基础。文章研究了国内外现有的一些数据库,分析了它们的语料和规格,并建立了适合本文研究的数据库。自建数据库选取了汉语中常用的37个汉字,有3女2男共5名发音者,每人对每个字发音10遍,并对录制的视频资料进行了唇区提取等后期处理工作。同时本文设计了一个唇读识别原型系统,该系统基于C++和MFC,实现了基于汉语孤立字的唇读识别功能。