论文部分内容阅读
近年来,说话人识别作为人机交互领域的一个主要研究方向之一,已经在现实生活中得到了广泛的应用。然而在实际应用中,能够提取到的说话人语音较短,导致系统识别效果较差。因此,本文研究的主要内容为短语音说话人识别系统。首先,本文概述了说话人识别系统的总体框架,并分别描述了各模块的性能以及处理过程,明确地把特征提取和匹配模型部分作为本文的主要研究方向。其次,在说话人特征提取部分,针对短语音条件下,单一特征的MFCC特征参数无法充分表征说话人特性的问题,利用不同特征可以从不同的角度对说话人特征分布进行描述的优点,确定了3种常用特征参数作为说话人特征,分别是:MFCC、GFCC和LPCC。考虑到直接拼接的特征无法获得很好的识别性能,提出了基于Fisher比的MFCC、GFCC和LPCC的多特征融合算法,并把新特征命名为LP_MGFCC。该种算法有效地利用了不同特征分量在识别系统中的贡献率不同的特点,通过选取系统贡献率较高的特征分量,进而提升了系统的识别效果。接着,由于融合的LP_MGFCC特征分量之间存在一定的相关和冗余信息,为了进一步提升短语音说话人识别性能,提出了基于PCA和LDA的LP_MGFCC特征补偿算法,得到了正交且说话人区分性较强的特征,同时,小了计算复杂度。再者,匹配模型的选择对短语音说话人识别系统的性能也会产生影响。本文对GMM-UBM模型进行深入研究,并通过实验确定了模型的混合度为1024时,系统的性能最优。同时,介绍了目前主流的I-Vector模型,并分析了I-Vector模型相比于GMM-UBM模型的优势,并在本文测试语音较短的情况下,对两种模型进行了实验对比,结果表明I-Vector模型相比于GMM-UBM模型具有更好的识别性能。最后,本文对基于多特征I-Vector的短语音说话人识别系统进行了仿真实验。在测试语音为8s时,验证了不同特征在基线I-Vector说话人识别系统中的性能,结果表明本文提出的多特征算法具有更好的识别性能。同时,在不同的测试短语音下,验证了本文提出算法的EER相对于基线系统的EER有约50%的提升,且本文提出算法的minDCF相对于基线系统的minDCF也有约50%的提升。