论文部分内容阅读
自动说话人识别技术,简单来说就是根据语音来自动对说话人进行区分,从而进行说话人身份鉴别与认证的技术。该技术在国家安全方面一直有着重要的意义。另外,随着通信以及互联网技术的发展,说话人识别技术在多媒体信息处理及检索方面也开始被应用起来。
当前在实验室环境中,由于语音的传输信道比较单一、信噪比较高,在这种情况下,说话人识别系统取得了良好的识别性能。但是在实际应用中,语音环境的复杂多变,例如环境噪声以及信道调制的干扰等,使系统的识别性能急剧下降,这对说话人识别系统的鲁棒性提出了很大的挑战。因此,如何有效的减弱或上除环境噪声以及信道干扰等对系统的负面影响,从而提高说话人识别系统的鲁棒性,成为了该领域研究的热点及重点之一。
实际应用中的说话人识别的鲁棒性问题,本质上可以归结为两个方面:一方面是由于环境噪声对训练和测试语音质量的影响,另一方面是由于目标说话人的训练环境和测试语音环境的不匹配,主要归结为信道的不匹配。目前,常用的提高说话人识别系统鲁棒性的算法可以粗略的归结为三个方面:特征域、模型域以及得分域。特征域的算法主要着眼于如何提取更加鲁棒的特征参数,从而使特征参数受环境变化的影响尽可能小。模型域的算法更多地是针对信道问题的补偿,使得目标说话人的模型与测试语音的信道相匹配。得分域算法主要是通过各种得分规整算法来消除因信道和环境噪声等带来的得分差异。这些算法在目前的说话人识别系统中发挥了重要的作用,能够在一定程度上对信道的不匹配问题进行补偿,但是在语音的信噪比较低的时候,这些算法的作用往往比较有限。
本文致力于说话人识别中的鲁棒性技术的应用及探索。首先,深入研究了说话人识别中的各种说话人建模算法、信道补偿算法以及得分判决模块,对这些关键技术的原理进行了分析并提出了相应的改进方法;另外,着眼于如何提高训练和测试语音质量方面的研究,从而在语音数据层面抑制环境噪声和信道调制的负面影响,尽可能提高说话人识别系统的识别性能。主要研究工作及创新点包括:
1.研究并实现了目前说话人识别中的关键技术-联合因子分析算法。为了克服原有算法中说话人空间和信道空间估计不足的问题,在说话人空间和信道空间估计方面采用了分开串行估计的方法。
在说话人因子和信道因子估计时,采用Gauss-Seidel方法来代替原有的联合估计的方法。联合估计的方法将说话人空间和信道空间拼接成一个大的矩阵,然后联合估计说话人因子和信道因子,由于矩阵的维数较高,因此在训练目标说话人模型的时候需要的时间较长,而Gauss-Seidel方法则以串行估计的方式,分别在说话人空间和信道空间估计其相应的因子,从而大大降低了模型训练的时间复杂度。
在得分判决模块,提出了一种基于识别对(trial)信息的鉴别性判决函数,该鉴别性判决函数通过对代表“True”和“False”两种识别对信息的超向量所对应的贡献因子向量进行重新估计,来进一步提高两种识别对的分类性能。
2.研究并实现了总变化因子分析技术。该技术在对说话人进行建模的时候,不区分语音中的说话人信息和信道信息,而是将整个语音空间(总变化空间)进行建模,然后在这个空间上对训练和测试语音计算其相应的总变化因子(Ivector),来作为SVM建模和分类的特征。为了降低信道对识别的影响,我们使用LDA降维技术以及类内协方差规整(WCCN)技术对Ivector进行信道补偿。
稀疏表示算法是一种具有很强鉴别性的分类方法。在说话人识别中,Ivector的维数通常较低,这非常适合于稀疏表示(Sparse Representation)算法中样本维数小于训练样本数的要求。因此,我们将稀疏表示算法引入到说话人识别中,并对其求解时的约束条件、得分计算方法以及得分规整方法进行了一定的改进,来提高算法的鲁棒性,并降低算法的时间复杂度。基于稀疏表示的Ivector系统获得了与基于SVM的Ivector系统相近的性能,且两者进行系统融合时,能够进一步提升Ivector系统的性能。
3.提出了一种基于语音谐波结构的鲁棒性说话人识别方法。该方法使用语音的谐波结构信息对语音进行再合成,我们使用合成后的语音进行传统的倒谱特征参数提取,从而用于说话人建模及识别。我们提出的这个方法通过对语音谐波结构的重构,能够一定程度上降低环境噪声以及信道不匹配对说话人识别性能的影响。另外,实验证明基于谐波结构合成语音的系统和基于原始语音的识别系统具有一定的互补性,两种系统的融合能够进一步提升说话人识别系统的性能。