论文部分内容阅读
唇读是用计算机再现聋人通过唇动破解语言规律读懂语言的过程,现已被广泛应用于语音识别、身份验证、人机智能接口等领域,成为当前研究的一个新的热点问题,是一个有着广阔发展前景的研究课题。本文主要研究了唇读系统中若干关键技术问题,如唇部检测及定位,唇形曲线拟合及特征提取、唇读识别及识别后处理等工作。
本文在唇部检测与定位方面,提出了一种自适应唇色分离算法。该算法以Haar特征训练Adaboost分类器作为基础,自适应地调整唇色分离的常量参数,从而能够动态地获得唇色与肤色的分布范围,实现准确地获得各类背景图像的唇部区域。该算法克服了传统唇色分离算法背景依赖性强及聚类不能有效分类的问题,可以在复杂背景的人脸图像中快速准确定位唇形区域,很好地提高了唇区检测的精确性和鲁棒性。
在唇形曲线拟合方面,提出了一种基于最小二乘法的二阶段椭圆拟合算法,有效地解决了口型模板算法计算复杂度高、不能有效表征唇部几何特征的问题,通过二次椭圆拟合更进一步接近唇形轮廓,并应用椭圆模板提取仅与唇读相关的视觉语音特征,排除冗余信息,降低数据的处理量。在特征提取方面,本文首先借鉴了语音音素及发音口型的分析,结合椭圆模板所提供的各特征值,完成特征选择并进行了特征组合,形成组合特征;然后采用主成分分析算法和顺序前进次优搜索算法从理论上实现了特征组的选择,在验证特征选择有效性的同时,确定了最终的组合特征。最后通过对比实验,分析各类特征的代表性和相互间的重叠作用或补偿作用,从而有效地表征唇动信息,对提高唇读的识别性能起到决定作用。
在唇读识别方面,本文提出了一种基于贝叶斯理论的唇读识别后处理算法,有效地解决了目前唇读系统所面临的发音口型序列和汉语音节之间一对多、音节与汉字之间一对多关系的问题。该算法应用贝叶斯理论模糊推理机制,当出现识别出的某个口型序列对应多个语音的情况,本文对选中的语音和候选的语音,分别采用奖励和处罚策略,动态地调整具有相同口型序列的各个语音的概率值,进行最合理语音的选择,从而解决发音口型与音节之间一对多的关系,完成第一阶段识别;在此基础上,利用第一阶段的识别概率结合语言模型的统计概率进行第二阶段识别,解决同音字的问题,从而增强唇读系统理解能力。本文在一定样本空间内进行了系统的设计,结果表明在无语音辅助情况下,该算法可以较好地解决同唇音、同音字的匹配问题。
论文最后进行了总结,说明研究的创新点及主要研究成果,指出进一步研究的问题。