论文部分内容阅读
与文本无关的说话人确认是说话人识别领域的主要研究方向之一。近年来,随着计算机、便携设备计算能力的增强,以及说话人识别技术的快速发展,说话人识别体现出了很好的研究价值,开阔的应用前景。因此,对说话人确认技术的研究,具有十分重要的现实意义。主流的说话人确认系统都是基于概率统计模型实现的。概率统计模型能够很好的描述说话人声学特征在特征空间的统计分布特性,因而能在说话人确认中取得十分不错的效果。但由于背景噪声以及信道失配等问题的影响,导致了说话人确认系统的性能难以进一步提升。本论文围绕说话人确认的模型域补偿方法,以通道失配、区分性训练为主题,分别基于GMM-SVM模型,全变量空间模型、以及G-PLDA模型对说话人确认技术进行了研究。本文主要研究的内容有:首先,将广泛使用于计算听觉场景分析中GFCC特征应用于说话人确认中,并对GFCC做出了一些改进,如在特征提取过程中采用开根号10压缩替代取对数压缩;在提取特征时使用26通道Gammatone滤波器组而不是64通道。实验结果表明,使用26通道Gammatone滤波器组的提取的GFCC能取得更好的性能。基于开根号10压缩的GFCC特征效果明显优于当前系统的PLP、MFCC特征。接着,构建了GMM-SVM说话人系统,在对声学特征参数进行PCA变换后,经过GMM建模,然后用SVM进行区分性训练。提出了一种能更充分利用GMM模型中的说话人信息构建SVM输入向量的方法。实验结果表明,该方法确实能在一定程度上提升系统的性能。最后,分别构建了基于TV模型和G-PLDA模型的说话人确认系统,并结合whitening规整、长度规整、LDA变换和WCCN变换等方法来对I-vector做信道补偿,并深入分析了这些信道补偿技术对实验结果的影响。并提出了在whitening规整和长度规整后,进行LDA或G-PLDA变换能使I-vector系统的性能大幅提升。