基于视频图像的唇读识别技术的研究

来源 :江苏大学 | 被引量 : 10次 | 上传用户:ziyi1965
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机唇读技术作为辅助语音识别的手段,受到越来越多的研究者的关注。本文对国内外现有的有关唇读识别技术和方法进行了综述,在比较现有唇读系统所采用的方法基础之上,针对基于视频的计算机唇读系统中唇部检测、唇读特征提取和唇语识别等关键技术,提出了自己的算法,并设计实现了唇读原型系统。本文的工作主要包括: (1) 提出了基于双重差分图像的唇部检测与定位方法。该方法实时跟踪口型序列的变化,在尺度归一、灰度归一、图像旋转修正的预处理基础上,对连续三帧视频图像进行双重差分运算,并对差分图像进行水平、垂直投影,利用其跃变点获得精确的唇部区域。该方法检测速度快,准确率高,在实时视频环境下,取得了令人满意的结果。 (2) 提出了SVD—QR和变形模板相结合的混合特征提取算法。对检测到的唇部图像,采用SVD—QR算法提取唇读的灰度特征,用变形模板方法提取唇读的几何特征,设计相应算法融合灰度特征与轮廓特征,获得包含大量视觉语音信息的特征向量。该混合式特征既包含了轮廓信息又包含灰度信息,且对几何变化、光照、噪声环境、尺度变化以及摄像头距离等因素不敏感。 (3) 提出了基于改进BP神经网络的唇读识别方法。运用口型的几何特征进行初分类,针对初分类的结果,对每类分别设计BP网络,并采用附加动量法和自适应学习速率法在大样本集上训练BP网络,该训练方法可避免网络陷入局部最小的问题,同时加快BP网络的收敛速度。口型初分类减小了BPNN分类算法的搜索空间,提高了识别速度,使得该系统更加适于实时视频环境,在包含大量视觉语音信息的混合特征的支持下,识别算法在对特定说话人和非特定说话人的发音口型识别中,均取得了满意的结果。 (4) 设计和开发了基于组件技术的唇读原型系统。采用面向对象的分析与设计思想,将系统划分为四个主要模块:图像采集模块、唇部检测与定位模块、唇读特征提取模块和唇读识别模块,并开发出相应的组件,降低了对象之间的耦合度,使得系统具有良好的可重用性和可移植性。
其他文献
“山绿了,水清了,不仅生活环境变好了,而且收入也多了!”近日,在信阳市上天梯非金属矿管理区,刚刚领到矿业发展共享金的群众高兴地说道。当天,共有1.41万名群众领取了矿业发
2020版《河南省工作用图》编制工作稳步推进5月12日,河南省地图院召开2020版《河南省工作用图》设计研讨会,初步确定了图幅目录、编制内容等相关工作。按照上级要求,今年2月,
“谢谢你们,冒雨上门为我们解决难题!”“真得为你们的服务点赞!”近日,在新安县洛新产业集聚区,看到县自然资源局的工作人员主动上门帮助解决用地难题,多家企业负责人激动地
5月27日,河南省自然资源厅在省国土资源开发投资管理中心复垦券交易平台成功举行今年第二批宅基地B类复垦券交易,成交面积7851.48亩,成交金额12.12亿元。面对新冠肺炎疫情影
<正>Ⅰ.The introduction of Changhe Motors Established on Nov.26,1999,Jiangxi Changhe Motors Co.,Ltd.is located in Jingdezhen,Jiangxi province, the famous city o
要牢固树立绿水青山就是金山银山的理念,发扬“右玉精神”,统筹推进山水林田湖草系统治理,抓好“两山七河一流域”生态修复治理,扎实实施黄河流域生态保护和高质量发展国家战
不动产权籍调查关乎我国民生、城市建设、国家发展等问题。明确不动产权籍调查现状,针对存在的问题提出应对措施,确保不动产权籍调查测绘工作有序高效开展,做好数据整合、存
5月19日,河南省自然资源厅召开全省自然资源执法督察工作推进视频会,聚焦重点工作,在认识上再提升、行动上再加力、措施上再强化,确保高质量完成执法督察目标任务。厅长张兴
日前,河南省自然资源厅印发《关于促进耕地“双高一转”试点工作的意见》(以下简称《意见》),选取新乡市平原新区、焦作市温县、濮阳市清丰县和台前县、三门峡市灵宝市作为首
“通过精神文明创建活动,全局的服务意识提升了,责任意识增强了,塑造出了团结协作、勤政务实、作风朴实的干部队伍,为各项工作的高质量开展打下了坚实基础。”扶沟县自然资源