论文部分内容阅读
说话人识别是指根据说话人的声音识别出说话人身份的技术,其在金融、司法、医疗、军事等领域都有着广泛的应用前景,是生物认证技术领域的研究热点之一。随着计算机和信息化技术的不断发展,说话人识别已逐渐从实验室环境走向实际应用。特征参数提取作为说话人识别技术的关键技术之一,是国内外众多学者的研究重点所在。实际应用环境对说话人识别提出了更高的要求,因此提取出更能表征说话人个性信息、更具鲁棒性、识别效果更好的语音特征参数成为说话人识别领域亟待解决的重要问题。本文在研究说话人识别中常用特征参数提取算法和特征选择方法的基础上提出了一种基于Fisher准则的混合特征提取算法和一种基于Fisher准则的Gammatone特征提取算法,并在MATLAB平台下进行了仿真实验。论文主要工作如下:首先,分析了说话人识别系统的基本原理、系统结构以及性能评价标准等相关知识。重点研究了目前常用的两种特征参数LPCC(Linear Prediction CepstralCoefficient)和MFCC(Mel Frequency Cepstral Coefficient)的提取过程,对比分析了两者的优缺点,并介绍了基于Fisher准则的特征选择方法及其在说话人识别中的应用。同时对本文中运用的说话人识别方法GMM(Gaussian Mixture Model)进行了详细的研究。其次,在分析了提取MFCC的梅尔频率滤波器组和提取IMFCC(Inverted MelFrequency Cepstral Coefficient)的翻转梅尔频率滤波器组结构的基础上,针对MFCC和IMFCC的优缺点,运用Fisher准则对MFCC和IMFCC参数进行特征选择,提出了一种基于Fisher准则的混合特征参数提取算法,并在TIMIT语音库和NOIZEUS语音库上进行了实验,结果表明与MFCC和LPCC相比,本文算法具有更高的识别率。最后,针对在噪声环境下MFCC作为特征参数的识别效果较差的问题,引入模仿人耳听觉系统的Gammatone滤波器来代替梅尔频率滤波器组。但Gammatone特征维数多,计算量大,且各维分量之间存在冗余,因此本文运用Fisher准则对提取的Gammatone特征进行特征选择和降维,提出了一种基于Fisher准则的Gammatone特征参数提取算法,并在NOIZEUS语音库上进行了实验,与Gammatone特征相比,本文算法所需特征维数更少,且识别率更高。