论文部分内容阅读
计算机唇读是指计算机系统通过分析说话者的唇部图像推断其说话内容,该技术在语音识别人机交互聋哑人辅助等领域有着诱人的应用前景计算机唇读技术主要包括唇部定位唇动特征提取唇动识别三个方面本文针对这几个方面进行了研究:本文建立了一个包含3位说话者6种指令语句共180条语料的计算机唇读数据库建库的过程分为音视频语料录制裁剪解析三步最后一步,为了得到音视频语料中的图像序列,本文开发了基于微软DirectShow的视频帧捕获存储软件本文研究了利用模板匹配进行唇部定位的方法基于对面部灰度稳定分布的认识,本文构建了一种人脸灰度模板该模板在结构上左右对称,由13个子区域组成,子区域大小符合面部器官比例,子区域间的灰度关系反映面部器官亮度状况定位时,模板滑动检测,直至匹配到人脸图像,即可根据模板结构划分嘴唇区域实验证明该方法稳定有效本文提出了基于关键点检测的口型特征提取方法两个嘴角点两个上嘴唇尖点一个上嘴唇外沿中点一个下嘴唇外沿中点被选为关键点算法先使用邻域灰度最小像素搜索法检测嘴角,然后在混合梯度场中利用跳跃Snake方法定位上嘴点,最后定位下嘴唇点以检测到的嘴唇关键点为依据即可获得高度宽度面积等口型参数实验证明该方法能够提取到准确的口型特征本文实现了基于隐含马尔可夫模型的唇动识别和语意推断,提出了将单个字的隐含马尔可夫模型和二元语句网络相融合进行句子级唇语识别的方法在融合而成的语句网络隐含马尔可夫模型中,Viterbi算法被用来进行语意解析相对于传统的孤立识别方法,本文提出的融合识别方法可以重复利用单字模型构造不同的语句模型,大大减少前者在大词量情况下的模型训练量