存在情感差异性语音的说话人识别算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hwhxl0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术被认为是最自然的生物认证技术,它是一项根据语音中反映的说话人生理和行为特征的语音参数,自动识别说话人身份的技术。传统说话人识别系统当使用者在平静状态下训练、测试时,已取得了非常出色的识别性能,但是,当说话人在不同情感状态间改变时,因说话人的态度发生改变,语音急剧变化,进而识别率会下降。在详细分析情感语音特性和情感语音研究方面的最新进展,特别是如何提高情感影响时说话人识别性能研究现状的基础上,本文针对如何更好的处理含有情感因素的说话人语音上进行了大量的尝试,提出了相关的模型和算法。本文的主要工作集中在以下四个方面: 第一,对情感语音特征和在情感语音影响下提高说话人识别性能的研究工作做了详细调研工作,并了解情感语音数据库方面的现状,针对现阶段缺少多说话人录制的中文情感语音数据库,设计、采集并建立了一个可用于情感语音分析和说话人识别的语音数据库MASC@CCNT。 第二,选择用于情感语音特性分析的特征,从基音频率构造、发音持续时间比较、元音共振峰分析、能量分析四个方面对一个中文情感语音库(MASC@CCNT)和一个英文情感语音库(EPST)上的语音信号进行详细的实验分析,并通过和不带情感的中性语音信号比较,找出了不同情感信号特征的分布规律,并对比中西语音库上的分析结果,得出中西方在表达情感方式上的差异,总体来说,东方人在表达情感时语音变化不如西方人激烈,相对含蓄,而西方人情绪变化时会采用外露、夸张的表达方式。 第三,在EPST情感语音库上,先通过声学特征统计量的分析,包括基音频率平均值(Mean Pitch)、基频动态范围(Pitch Range)、基频方差(Pitch Variance)、基频歪斜度(Pitch Skewness)和基频动态范围扩展方式(Pitch Expansion),对14种情感进行了分类,将具有相近特性的情感类别归于同一个组,然后为每个说话人的中性语音中分别加入很小量的情感信息,按照情感组别进行说话人模型训练。该方法用于实际的说话人识别系统中,在情感先验知识不足的情况下可进行结构化训练并测试,极大地提高了说话人识别系统在情感语音影响时的性能。 第四,通过讨论用于说话人识别的传统倒谱特征和基音频率(F0)在说话人处于不同的情感状态时的差异性,本文认为,当说话人情绪发生变化时,基音频率的改变会影响到倒谱特征(MFCC等),这种影响会增加说话人的自身距离(intra-speakerdistance),从而使说话人识别系统的性能降低。本文提出了基于倒谱特征线性情感补偿的说话人识别方法,实验结果表明,这种特征补偿方法能够使倒谱特征更能描述说话人个性信息,从而提高说话人识别系统的性能,使得其识别率升高。 本文得到以下基金资助:国家自然科学基金(60273059)、国家杰出青年科学基金(60525202)、教育部“跨世纪优秀人才培养计划”专项基金(NCET-04-0545)、国家自然科学基金重点项目(60533040)。
其他文献
随着Web上数据爆炸式的增长,这些海量数据的背后隐藏着许多重要信息经常未被充分地挖掘和利用,Web数据挖掘技术为解决这个问题带来了希望。然而传统Web数据挖掘系统存在效率低
数据集成平台在企业管理中应用越来越广泛。本文通过分析当前主流数据集成平台产品,认为目前国内外数据集成平台还具有很多不足之处。工作流技术应用于数据集成平台能够成功
随着时代数字化的发展,指纹识别技术的应用越来越广泛,指纹采集也越来越受到人们的重视。本论文设计了基于FPGA的指纹采集卡。硬件方面,对各芯片进行了选择,并画出了系统结构
网络监测对于网络管理者来说具有十分重要的意义,但是对网络性能参数的直接测量在一些情况下是不可行的。网络透视作为一种有效的解决方法被提了出来,它根据端到端的测量结果
随着网络的快速普及和应用的日益深入,各种增值业务在网络上得到了广泛部署,网络短时间的中断就可能造成重大损失。因此,网络的高可用性HA日益成为关注的焦点。 作为网络高可
当今社会,越来越多的企业认识到,只有靠充分利用、挖掘其现有数据,才能实现企业效益最大化。大多数企业并不缺乏数据,而是受阻于数据冗余和不一致。传统的数据库应用系统是面向业务操作设计的,简化了具体操作人员的劳动强度,而企业的中高层领导却没有相应的系统。企业需要新的技术来弥补原有数据系统的不足,需要把已经广泛收集到的数据集成到数据仓库中,以便从业务数据中提取有用的信息,帮助他们在业务管理和发展上做出及时
随着Web服务数量的急剧增多,用户面临大量的服务选择。因此如何从众多功能相似的Web服务中高效地发现满足条件的服务,如何判定服务组合的正确性等问题,已成为业界研究的热点
无线传感器网络由部署在监测区域内的大量传感器节点组成。传感器节点一般依靠电池供电,其电能有限,并且传感器节点一旦配置后,由于其工作环境等因素的限制就很难对电池进行
随着Web的快速发展,丰富的Web资源构成了一个巨大的全球信息仓库。如何从Web网站中获得想要的信息成为亟待解决的问题,因此Web信息抽取成为必要,Web信息抽取技术也成为当今的一
研究表明,网络已成为现实世界中许多系统的存在形式,而大多数现实网络中都普遍具有一个共同特征,即社区结构。针对在线社会网络的众多研究方向中,有一个非常有商业价值的研究