基于视频的唇部定位和序列切分算法的研究

被引量 : 0次 | 上传用户:gzalpha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇读(Lipreading/speechreading),即是通过观察说话者的口型变化,“读出”所说的内容。唇读是人工智能,图像处理,模式识别等相关研究领域综合发展所产生的一个新的研究方向,它被广泛应用于语音识别的辅助手段,同时在安防系统的身份认证,辅助手语识别,听觉障碍人士的语言学习,基于唇动特点的生物特征识别等领域也有广阔的应用前景。一个完整的唇读系统通常包括人脸检测,唇部检测定位,图像序列的切分(端点检测),特征提取和唇语识别。其中,准确地将嘴唇实时检测和定位,是一切唇读系统的首要任务,它直接影响到后续的唇读工作。而对于一个视频,每个孤立字的图像序列的切分,则是唇读系统的又一个重要步骤,直接影响到唇读识别率。目前,用于唇读识别的孤立字切分都是基于音频的(基于听觉特征的),必然存在音节切分不完整的缺点,本文利用视觉和听觉融合的序列切分算法,提高了唇读识别率。本文的主要研究内容包括以下方面:(1)考虑到唇读视频数据库所占存储容量大,不利于共享和传播,以及鉴于本文的研究内容,本文自建了双模态数据库,并在此基础上进行后续的处理。(2)本文在利用OpenCV人脸检测模块检测出人脸之后,通过大量的实验,提出了利用人脸的结构特征和灰度信息进行唇部检测定位的方法,并完成了对唇部图像的归一化。该方法对头部运动和镜头的缩放具有较好的鲁棒性。(3)目前用于唇读识别的孤立字切分一般都是基于音频(基于听觉特征)的,比较经典的方法是基于短时能量的端点检测方法。本文以此为基础,在视觉通道上,利用图像比较的方法,提出了改进的切分算法,达到了视觉和听觉的融合。实验结果显示,本文方法能对孤立字进行更完整的切分,并且相对于基于听觉特征的切分,提高了唇读的识别率。
其他文献
以作业为基础的成本核算方法作为现代企业的先进管理工具在国外已被广泛研究与应用。它不但能够提供科学的间接费用分配方法,使成本核算更加正确,而且还可以使成本管理更精细
随着大数据时代的来临,大数据技术也开始得到飞速的发展,在日常生活中也开始得到广泛应用。大数据时代不仅仅是对人们的日常生活做到了改变,更多的是对互联网金融的发展起到
对企业业绩进行的科学、客观的评价有助于上市企业改善经营管理和提高资本运作效率。因此,企业业绩评价一直是近年来国内外学术界和实务界关注的热点问题之一。目前,外国大部
大气监测中的光学方法具有灵敏度高,速度快,可实现实时监测的特点,且不产生任何新的污染,是检测大气污染物的理想方法。本文在大气光学研究现状的基础上,以iHR320成像光谱仪
黄陵县地处西北内陆,黄土高原中部。近年来,随着经济发展,人类工程活动加剧,滑坡、崩塌、泥石流等地质灾害也呈多发,频发势态,严重威胁了当地人民的生命财产安全。本文依托“
随着改革开放的不断深入,零售业的发展脚步越来越快,各种销售方式层出不穷,各种零售业态与广大消费者建立了广泛、直接、密切的经济联系。购物环境是影响消费者购买意愿的重
硫酸渣是焙烧硫铁矿生产硫酸时产生的废渣,是一种工业固体污染物,但其一般含铁30-50%,是一种重要的二次铁资源。我国较早就对硫酸渣分选铁精粉进行了试验研究,一般采用磁选、
为期4天的第22届中国国际照相机械影像器材与技术博览会于4月12日在北京展览馆开幕。本届展会共有参展企业97家,国内外主要影像器材厂商及品牌,如佳能、尼康、索尼、富士、蔡
新课程确立了知识与技能、过程与方法、情感态度价值观三位一体的教学观,课堂管理也要持发展的眼光,课堂管理应该由强调规定和控制转变为引导和激励,以促进学生的全面发展。
大数据对企业管理决策能够产生重要影响,企业管理决策者要有大数据意识,积极利用大数据获得有效的信息资源,为企业决策工作提供信息支持,这样,才能提高决策工作的效率,才能有