唇读系统中唇动定位及识别关键算法的研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:liangxianke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇读是用计算机再现聋人通过唇动破解语言规律读懂语言的过程,现已被广泛应用于语音识别、身份验证、人机智能接口等领域,成为当前研究的一个新的热点问题,是一个有着广阔发展前景的研究课题。本文主要研究了唇读系统中若干关键技术问题,如唇部检测及定位,唇形曲线拟合及特征提取、唇读识别及识别后处理等工作。   本文在唇部检测与定位方面,提出了一种自适应唇色分离算法。该算法以Haar特征训练Adaboost分类器作为基础,自适应地调整唇色分离的常量参数,从而能够动态地获得唇色与肤色的分布范围,实现准确地获得各类背景图像的唇部区域。该算法克服了传统唇色分离算法背景依赖性强及聚类不能有效分类的问题,可以在复杂背景的人脸图像中快速准确定位唇形区域,很好地提高了唇区检测的精确性和鲁棒性。   在唇形曲线拟合方面,提出了一种基于最小二乘法的二阶段椭圆拟合算法,有效地解决了口型模板算法计算复杂度高、不能有效表征唇部几何特征的问题,通过二次椭圆拟合更进一步接近唇形轮廓,并应用椭圆模板提取仅与唇读相关的视觉语音特征,排除冗余信息,降低数据的处理量。在特征提取方面,本文首先借鉴了语音音素及发音口型的分析,结合椭圆模板所提供的各特征值,完成特征选择并进行了特征组合,形成组合特征;然后采用主成分分析算法和顺序前进次优搜索算法从理论上实现了特征组的选择,在验证特征选择有效性的同时,确定了最终的组合特征。最后通过对比实验,分析各类特征的代表性和相互间的重叠作用或补偿作用,从而有效地表征唇动信息,对提高唇读的识别性能起到决定作用。   在唇读识别方面,本文提出了一种基于贝叶斯理论的唇读识别后处理算法,有效地解决了目前唇读系统所面临的发音口型序列和汉语音节之间一对多、音节与汉字之间一对多关系的问题。该算法应用贝叶斯理论模糊推理机制,当出现识别出的某个口型序列对应多个语音的情况,本文对选中的语音和候选的语音,分别采用奖励和处罚策略,动态地调整具有相同口型序列的各个语音的概率值,进行最合理语音的选择,从而解决发音口型与音节之间一对多的关系,完成第一阶段识别;在此基础上,利用第一阶段的识别概率结合语言模型的统计概率进行第二阶段识别,解决同音字的问题,从而增强唇读系统理解能力。本文在一定样本空间内进行了系统的设计,结果表明在无语音辅助情况下,该算法可以较好地解决同唇音、同音字的匹配问题。   论文最后进行了总结,说明研究的创新点及主要研究成果,指出进一步研究的问题。  
其他文献
动态角度测量是描述物体运动特征不可或缺的参数,许多工程应用中都需要对运动状态下的角度进行测量,并将这些测量值用于对系统的监测或控制。动态角度测量对目标的定位、追踪起
大型平台具有承载量大、通用性强,在现代物流、国防工业、航空装载、油田开采、大型设备的制造与维护等领域得到广泛的应用,平台变形的检测问题变得十分重要。  本论文的研究
本文通过研究耳蜗中基底膜运动对不同频率和强度分辨能力,讨论其中外毛细胞自身运动具有的时延效应。为了探索这个问题,我们假设外毛细胞受到听力系统上层传出神经的反馈调控
三相永磁同步电动机(Permanent Magnet Synchronous Motor,PMSM)是高阶、强耦合、参数时变的非线性系统,单纯的通过坐标变换只能使其模型降阶和简化,不能解决其存在的非线性、强
车载自组织网络是由配备了无线通信设备的车辆节点和路边单元组成的移动自组织网络,是智能交通系统的重要组成部分。车辆间的实时通信不但可以帮助维护道路交通安全以及缓解交
随着世界航天科技的发展,现代卫星已经不再是一个简单的非线性系统,而是已经变为一个具有强非线性、强耦合、时变以及具有很大不确定性的非线性系统。卫星姿态控制系统是卫星控
由于网络本身存在的脆弱性以及可能遭受的来自各方面的威胁和攻击,信息的安全保密在网络环境下具有特别重要的意义。近年来,人们利用IPSec协议通过使用合理的密钥协商方式,灵
由于永磁同步电动机具有高效率、高可靠性、体积小等优点,目前在众多领域得到了广泛应用。为了实现永磁同步电动机的精确控制,需要在其转轴上安装位置传感器,考虑到诸多应用领域
心血管疾病是严重危害人类健康的重大疾病。我国人口众多且心血管疾病一直处于高发状态,因此通过计算机辅助手段预测、诊断和治疗心血管疾病是迫切并且有实际需要的。在各种计
步进电动机是基于电磁感应原理将电脉冲信号转换为相应的角位移或线位移的一种特殊电机。随着电子技术、控制技术以及电动机本体的发展和变化,结合其具有的快速启停能力强、精