论文部分内容阅读
视觉语音是说话者说话过程中伴随着以唇部为主要区域的口型等变化表达言语信息,目前被广泛应用于唇读以及与声音语音一起实现双模态的语音识别其研究方法涉及了语音识别,计算机视觉,人工智能,数字图像处理等领域,是目前的一个研究热点。本文面向视觉语音表示这一关键问题加以研究,针对基于视频的汉语视觉语音特征模式构建提出解决方案。
在中国有大量听力功能障碍的人群,视觉语音是他们日常交流对话的主要方式。特别利用唇读,通过对视觉语音序列进行特征提取和分析建模来识别语音,可应用于聋哑人与正常人交流辅助工具的研究。另外,探讨解释视觉语音的特征模型,为身份验证、多模式语音识别和基于图像的视觉语音合成等应用领域提供了基础,其研究成果具有潜在的应用价值。
本文针对汉语视觉语音的特征分析和模式构建主要完成了:视觉语音数据采集,视觉语音特征提取,基于隐马尔可夫模型(HMM)视素识别结果的特征分析。首先,在综合分析汉语发音的特点基础之上,本文采用了包含上下文信息的句子作为脚本,提取句子中音素作为训练样本。其次,在视觉语音的特征表示方面,本文从唇部区域纹理、形状以及动态特性不同角度,研究揭示视觉语音的特征形式,分别选用反映全局纹理特征的离散余弦变换(DCT)、局部二进制模式(LBP)和几何特征研究唇部形状信息对视觉语音认知的贡献,同时考虑到视觉语音的动态特性,选用了运动历史图像(MHI)研究其对视觉语音的表述能力,并提出通过特征层特征组合构建特征模式。最后,本文采用了反映动态特性的HMM实现中文视素的识别,用待识别的视素检测识别率评估确立较佳的视觉语音特征模型。
实验表明在DCT全局特征,LBP局部纹理特征,几何特征和MHI特征这几个单一特征中纹理特征相对有效地表述了视觉语音,而基于MHI表述视觉语音所获得的视素识别率相对较低。组合特征相比单一特征具有更高的识别。其中组合DCT全局特征和LBP纹理特征建立的模型识别视素类所得的识别率最高为55%,较单一的DCT全局特征和LBP纹理特征建立的模型识别率分别高出12%和10.8%,也是所有特征提取方法中识别率最高的一种方法:几何特征和LBP纹理特征组合后建立的模型识别视素类的识别率居其次为49%,较单一的几何特征和LBP纹理特征建立的模型识别视素类的识别率分别高出12%和6%。最后,本文确立了描述语音动态性的HMM,加上描述局部纹理和全局纹理的组合特征是具有较好的视觉语音表述能力的模式。