基于邻居相似及精细失真检测的情感说话人识别

来源 :浙江大学 | 被引量 : 0次 | 上传用户:huhu029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动接入设备的普及,语音作为一种快速方便的交互方式,越来越受到重视。说话人识别技术,作为语音应用技术的一部分,也有着广阔的应用前景。  在说话人识别中,注册阶段和测试阶段时说话人所处的情绪状态不同,会导致系统识别率的降低。我们称其为情感说话人识别。为了降低系统受情感变化的影响,本论文通过观察语音特征空间及模型空间受到的由情感引起的变化,提出了情感相对不变的特性——邻居相似现象,并基于此提出了若干情感模型合成的方法。同时,本文还提出了在各声学类下的精细化失真特征检测和修正的方法。  本论文的主要贡献如下:  1.阐述了情感引起的语音特征空间变换的说话人相关和音素相关的特点。  人的语音是由多种因素共同激发形成的,很难建立一个较好的中性到情感的绝对的、说话人无关的变换规则。本文根据情感引起的特征空间变换的说话人相关的特点,提出了邻居相似现象:即中性下两个说话人的语音相似,在情感状态下的语音也是相似的。并基于MFCC特征分布空间,GMM模型和i-vector,深入阐述了邻居相似现象。  情感特征空间的变换不仅与不同的说话人相关,还与发音内容相关。通过观察元音三角形的变换规律和MFCC特征空间随不同音素的变换方式,说明了情感特征空间的变换与音素相关。  2.基于“邻居相似现象”提出了若干情感说话人模型合成方法。  基于邻居相似现象,本文采用相对变换的方式,利用和该说话人较为相近的说话人的中性至情感变换规则,来指导该说话人的情感模型生成。在如何利用这些邻居信息指导情感模型的合成时,我们提出了两种方法,一种是直观的k近邻原则。第二种是稀疏表达模型。  根据k近邻原则,利用相近说话人的中性均值与情感均值之间的差值,指导该说话人情感GMM模型均值的合成。通过采用RBF神经网络和稀疏表达的方法合成说话人的情感GMM模型权重,也能够较好的提升系统的识别性能。  原子对齐的稀疏表达方法,通过说话人的中性和情感的语音,联合训练了稀疏表达字典,字典中的每个原子可以认为是对齐的。在中性模型下合成出的稀疏系数能够应用于情感字典中,合成出说话人的情感模型。基于原子对齐稀疏表达方法的情感i-vector合成,是在MASC库上性能最好的一种方法。  3.建立基于声学类的精细失真检测方法。  为建立精细的情感说话人识别算法,需要对不同音素采用不同的情感补偿方法。然而由于音素识别性能的限制,本文转而采用三种声学类的识别来取代音素识别,分别是音素类,高斯符号化和概率高斯符号化方法。  在每个声学类中,建立支持向量机或者模糊支持向量机用于检测失真特征。在模糊支持向量机中,每个训练样本的模糊隶属度即为该特征属于每个高斯分量的后验概率,通过模糊隶属度表征特征属于每个声学类的概率。通过检测出这些失真特征,并在得分计算时剔除这些失真特征,能够较好的提高系统的性能。  特征修正的目的是让修正后的特征能够与原说话人的中性特征更为接近,同时又能保持与其它说话人的距离较远,即最小化类内距离最大化类间距离。通过对该目标进行最优化处理,得到了每个声学类下的失真特征变换矩阵,用于修正失真特征。
其他文献
空间数据库中查询的优化是人们关心的问题,最近邻查询是空间查询研究中心的难点和热点,反最近邻问题是最近提出来的一个概念,是最近邻问题的扩展,如何有效实现空间数据的反最
该文主要阐述了"嵌入式Linux平台下ModBus协议通讯控制模块"的设计原理与实现技术,其研究目的就是试图解决远程集散式测控系统和信息产品中通讯的实用性与通用性问题,开发出
爆闪式信号灯由于体积小,能在短时间内发出强光,具有很明显的警示作用,广泛用于机场导航、航空指示、道路交通、特种车辆(警车、救护车、消防车、工程车)等场合,有效地警告各种隐患,避免各种事故的发生,很好的起到了防患于未燃的作用。因此国内外生产厂家不断地开发出新产品,一是改变产品的外观造型,二是改善内部电路,使产品具有高可靠性、高稳定性、高性能价格比。本文详细讨论了在现有信号灯的基础上,设计出一种寿命长
随着计算机网络飞速发展, 网管问题越来越引起人们的重视, 其中服务质量的保证以及业务管理成为这一领域的关注焦点,用基于策略的思想来管理QoS网络成为近几年迅猛发展的网管
随着网络的迅猛发展和各种计算设备性能的飞速提高,在人们生活中使用的信息呈爆炸性的增长.大量的用户需要随时随地存储和访问自己的重要资料和数据,并且能够与他人方便地进
组合优化问题一直是科学研究领域中的一个重要问题。目前解决组合优化问题的方法可以分为两类。Non-Populationbased方法和Populationbased方法。本文主要讨论属于Population
当需要对来自地面同一区域的两幅或多幅遥感图像进行逐像素比较时,图像配准处理是必不可少的,遥感图像配准技术已成为海量遥感图像数据处理和充分利用的瓶颈问题,它作为遥感图像处理的重要理论和方法之一日益引起人们的重视。 本文在综合比较现有图像配准技术的基础上,提出了一种利用小波变换提取图像边缘特征点的基于灰度和基于特征相结合的遥感图像自动配准方法。该方法简单有效,可以达到子像素级配准精度。 本
Peer-to-Peer计算具有自适应性、自组织性、负载均衡、容错性、可用性等优点,被认为是在全球范围实现资源共享和提供协作环境的有效途径。然而,P2P计算的非集中式访问模式使传
现代计算机系统日趋复杂,处理器、存储系统、输入输出系统、操作系统、编译器以及应用程序对计算机系统的整体性能都有重要影响,所以需要我们采用能够真实反映客观实际的方法
本文旨在建立一个复杂的系统—沉积相建模系统的00模型。随着软件规模的日益增长,系统的复杂性急剧上升。面向对象技术提供了驾驭系统复杂性的能力和手段。面向对象技术的关键