论文部分内容阅读
随着移动接入设备的普及,语音作为一种快速方便的交互方式,越来越受到重视。说话人识别技术,作为语音应用技术的一部分,也有着广阔的应用前景。 在说话人识别中,注册阶段和测试阶段时说话人所处的情绪状态不同,会导致系统识别率的降低。我们称其为情感说话人识别。为了降低系统受情感变化的影响,本论文通过观察语音特征空间及模型空间受到的由情感引起的变化,提出了情感相对不变的特性——邻居相似现象,并基于此提出了若干情感模型合成的方法。同时,本文还提出了在各声学类下的精细化失真特征检测和修正的方法。 本论文的主要贡献如下: 1.阐述了情感引起的语音特征空间变换的说话人相关和音素相关的特点。 人的语音是由多种因素共同激发形成的,很难建立一个较好的中性到情感的绝对的、说话人无关的变换规则。本文根据情感引起的特征空间变换的说话人相关的特点,提出了邻居相似现象:即中性下两个说话人的语音相似,在情感状态下的语音也是相似的。并基于MFCC特征分布空间,GMM模型和i-vector,深入阐述了邻居相似现象。 情感特征空间的变换不仅与不同的说话人相关,还与发音内容相关。通过观察元音三角形的变换规律和MFCC特征空间随不同音素的变换方式,说明了情感特征空间的变换与音素相关。 2.基于“邻居相似现象”提出了若干情感说话人模型合成方法。 基于邻居相似现象,本文采用相对变换的方式,利用和该说话人较为相近的说话人的中性至情感变换规则,来指导该说话人的情感模型生成。在如何利用这些邻居信息指导情感模型的合成时,我们提出了两种方法,一种是直观的k近邻原则。第二种是稀疏表达模型。 根据k近邻原则,利用相近说话人的中性均值与情感均值之间的差值,指导该说话人情感GMM模型均值的合成。通过采用RBF神经网络和稀疏表达的方法合成说话人的情感GMM模型权重,也能够较好的提升系统的识别性能。 原子对齐的稀疏表达方法,通过说话人的中性和情感的语音,联合训练了稀疏表达字典,字典中的每个原子可以认为是对齐的。在中性模型下合成出的稀疏系数能够应用于情感字典中,合成出说话人的情感模型。基于原子对齐稀疏表达方法的情感i-vector合成,是在MASC库上性能最好的一种方法。 3.建立基于声学类的精细失真检测方法。 为建立精细的情感说话人识别算法,需要对不同音素采用不同的情感补偿方法。然而由于音素识别性能的限制,本文转而采用三种声学类的识别来取代音素识别,分别是音素类,高斯符号化和概率高斯符号化方法。 在每个声学类中,建立支持向量机或者模糊支持向量机用于检测失真特征。在模糊支持向量机中,每个训练样本的模糊隶属度即为该特征属于每个高斯分量的后验概率,通过模糊隶属度表征特征属于每个声学类的概率。通过检测出这些失真特征,并在得分计算时剔除这些失真特征,能够较好的提高系统的性能。 特征修正的目的是让修正后的特征能够与原说话人的中性特征更为接近,同时又能保持与其它说话人的距离较远,即最小化类内距离最大化类间距离。通过对该目标进行最优化处理,得到了每个声学类下的失真特征变换矩阵,用于修正失真特征。