基于视频的视觉语音特征分析和模式构建

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:fgh45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉语音是说话者说话过程中伴随着以唇部为主要区域的口型等变化表达言语信息,目前被广泛应用于唇读以及与声音语音一起实现双模态的语音识别其研究方法涉及了语音识别,计算机视觉,人工智能,数字图像处理等领域,是目前的一个研究热点。本文面向视觉语音表示这一关键问题加以研究,针对基于视频的汉语视觉语音特征模式构建提出解决方案。   在中国有大量听力功能障碍的人群,视觉语音是他们日常交流对话的主要方式。特别利用唇读,通过对视觉语音序列进行特征提取和分析建模来识别语音,可应用于聋哑人与正常人交流辅助工具的研究。另外,探讨解释视觉语音的特征模型,为身份验证、多模式语音识别和基于图像的视觉语音合成等应用领域提供了基础,其研究成果具有潜在的应用价值。   本文针对汉语视觉语音的特征分析和模式构建主要完成了:视觉语音数据采集,视觉语音特征提取,基于隐马尔可夫模型(HMM)视素识别结果的特征分析。首先,在综合分析汉语发音的特点基础之上,本文采用了包含上下文信息的句子作为脚本,提取句子中音素作为训练样本。其次,在视觉语音的特征表示方面,本文从唇部区域纹理、形状以及动态特性不同角度,研究揭示视觉语音的特征形式,分别选用反映全局纹理特征的离散余弦变换(DCT)、局部二进制模式(LBP)和几何特征研究唇部形状信息对视觉语音认知的贡献,同时考虑到视觉语音的动态特性,选用了运动历史图像(MHI)研究其对视觉语音的表述能力,并提出通过特征层特征组合构建特征模式。最后,本文采用了反映动态特性的HMM实现中文视素的识别,用待识别的视素检测识别率评估确立较佳的视觉语音特征模型。   实验表明在DCT全局特征,LBP局部纹理特征,几何特征和MHI特征这几个单一特征中纹理特征相对有效地表述了视觉语音,而基于MHI表述视觉语音所获得的视素识别率相对较低。组合特征相比单一特征具有更高的识别。其中组合DCT全局特征和LBP纹理特征建立的模型识别视素类所得的识别率最高为55%,较单一的DCT全局特征和LBP纹理特征建立的模型识别率分别高出12%和10.8%,也是所有特征提取方法中识别率最高的一种方法:几何特征和LBP纹理特征组合后建立的模型识别视素类的识别率居其次为49%,较单一的几何特征和LBP纹理特征建立的模型识别视素类的识别率分别高出12%和6%。最后,本文确立了描述语音动态性的HMM,加上描述局部纹理和全局纹理的组合特征是具有较好的视觉语音表述能力的模式。
其他文献
近几年,随着计算机的广泛应用,计算机视觉、图像处理及可视化技术成为非常热的研究方向,也越来越多的应用在诸如医学等其他领域内。另一方面,医学领域内的磁共振成像(Magneti
互联网的快速发展,特别是Web2.0的崛起,为用户提供了越来越丰富的网络应用和服务。这些应用包括博客、照片、视频、微博、个人网络存储等等。它们为用户带来便利的同时,也存在着
可信计算是信息安全领域的新技术,它从终端入手,从根本上解决信息系统的安全问题,它的三大主要功能是数据保护、身份证明和完整性度量、存储、报告。在可信计算中,用户对实体(如密
随着多媒体产业的迅猛发展,许多通用微处理器中都加入了SIMD扩展指令集。处理器系统需要硬件设备、操作系统和编译器的紧密耦合才能正常工作,编译器的性能直接影响了系统的整体
Web信息分布的局部专题化是互联网信息所呈现的特征之一,伴随着面向主题信息获取的需求越来越多,用户希望主题信息获取能够做到领域信息搜集更完备、更新速度更快、并能够自
光学成像效果是与光学镜头成像特性相关的一类光学效果,常见的包括景深、渐晕、光学像差、散景、眩光等效果,在计算机生成的图像中加入这些效果可以增强图像的真实感和逼真度。
语义网是一种能理解人类语言的智能网络,目的是完成基于语义的知识表示和推理。RDF是W3C推荐的一种语义网信息描述方式,用于表达任何可在Web上被标识的事物信息,它提供的语义丰
为了满足多核及众核处理器对高并发、低延迟、高可靠片上通信的需求,片上网络逐渐取代总线成为芯片内部的主流互连方案。但是由于芯片内部资源的限制、芯片特征尺寸的不断缩小
近年来,随着信息化业务的不断发展和IT系统的日益复杂,数据中心的规模在不断扩张,而严重的电力消耗日益成为数据中心在成本控制和后续发展方面不可忽视的问题。各国的研究者纷纷
近年来,在诸如网络流量分析、传感器网络、入侵检测等应用中,相关的业务数据往往来自于多节点的网络环境,在各个节点源源不断产生大量的数据流并不断地被收集处理,这样的环境被称