口型识别与唇读算法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:hema5177
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类对语言的感知是多通道的,听力正常者在交谈的过程中也无意识的使用唇动、表情等视觉信息以辅助听觉能力。对于听力障碍者或噪声环境下的语言感知,视觉信息显得更加重要。计算机唇读技术正是在这样的背景下应运而生,它是指对说话者的口型变化等视频信息进行分析而识别出说话内容的过程。该技术涉及计算机视觉、人机交互、图像处理、模式识别等诸多领域,被广泛应用于与语音信息融合以提高识别率,也用于公共安全领域、生物特征识别和口型合成等。本文主要研究单视觉通道下基于孤立汉语字的唇读系统,从唇部区域检测、唇区特征提取及唇读训练和识别三方面展开研究,主要工作及创新如下:(1)在唇部区域检测模块,详细介绍了基于Viola-Jones的检测方法,该方法利用Haar like矩形特征作为特征模板,以Adaboost算法训练特征值,并用级联的方式得到强分类器以实现检测。本文将其用于人脸和唇区的检测,检测正确率达到了97%,为下一步处理打下了良好的基础。(2)特征提取是唇读技术的核心。本文提出了一种基于像素的4阶段级联的特征提取方法。该方法首先对唇区图像进行图像变换,接着针对不同的图像变换结果采用合适的方法选取需要的数据,然后进行数据降维,最后对降维后数据实现矢量量化,得到最终特征向量。实验结果表明该方法与单独使用基于像素的方法相比特征向量维度大大降低,DCT-PCA和DWT-PCA方法的最高识别率分别达到了72.8%和77.4%。(3)唇读训练和识别模块,分析了HMM模型用于唇读识别的可行性,对将HMM应用于唇读时所面临的模型类型选取、初始参数选择等具体问题做了详细的说明,并给出了利用HMM进行唇读训练和识别的过程,最后通过实验建立了合理的唇读HMM模型。(4)唇读数据库是进行唇读研究的基础。文章研究了国内外现有的一些数据库,分析了它们的语料和规格,并建立了适合本文研究的数据库。自建数据库选取了汉语中常用的37个汉字,有3女2男共5名发音者,每人对每个字发音10遍,并对录制的视频资料进行了唇区提取等后期处理工作。同时本文设计了一个唇读识别原型系统,该系统基于C++和MFC,实现了基于汉语孤立字的唇读识别功能。
其他文献
目的探究高危人乳头状瘤病毒核酸(HPV-DNA)联合液基细胞学(TCT)运用于宫颈癌筛查的效果。方法 2016年8月至2018年8月,经阴道镜下病理学诊断确认为宫颈癌患者90例,分别接受HPV
<正> 子宫肌瘤又称子宫平滑肌瘤,它是妇科常见肿瘤,然而其发病因素尚不清楚,子宫肌层变成平滑肌瘤可能包括正常子宫肌层的自身突变、性激素之间复杂的相互作用,以及局部生长
目的观察筋骨康结合吴氏推拿手法治疗颈型颈椎病的临床疗效和安全性。方法将符合纳入标准的60名患者分为对照组和治疗组两组,其中对照组采用扶他林软膏配合TDP治疗仪治的方式
本研究依据气象条件对花椒品质形成的影响,以重庆江津不同采收时期收获的青花椒为研究对象,分析青花椒主要品质随成熟期的变化情况,确定青花椒适宜采收期,并为进一步开展青花
<正>海口作为海南的省会城市,自古有"水城"之称,也是"国家环境保护模范城市"。作为中国南端"绿色瑰宝",海口始终把生态建设作为当前可持续发展的首要任务,这几年在生态文明建
鉴于获取本体结构中的重要概念对众多的领域知识具有重要的意义,首先阐述了本体结构中的重要概念,以及根据本体结构与复杂网络的特性相似性理论,应用复杂网络节点重要性的研
共情是心理咨询过程中最为重要的技术之一 ,并始终运用于咨询的整个过程之中。本文从共情是心理咨询者所必备的重要品质和能力 ,共情对有效咨询关系的建立和促进 ,共情是唤醒
利用江苏省52个气象站1961~2012年日降水资料及冬油菜产量逐年数据,计算了春季10个类型的降水指数,并探讨了春季降水异常与产量的数量关系。结果表明:(1)近50年该省大部分地
目的 讨论目视化管理在抢救车中的应用效果。方法 抢救车2016年7至12月采取常规式管理,2017年1至6月采取目视化管理,对目视化管理应用前后的效果进行对照。结果 实施目视化管
在永磁电机的基础上,增设电励磁绕组,以辅助调节永磁磁场,形成混合励磁电机,融合了永磁电机和电励磁电机的优点,应用前景广阔。介绍了混合励磁电机的调磁原理;从电机原型的角