论文部分内容阅读
利用某一特定说话人的语音来对这个人的身份进行识别的技术叫做说话人识别技术。我们所研究的是说话人识别中的与文本无关的说话人确认系统。在信息技术高速发展的今天,说话人确认已经得到了很全面的研究和成功的应用。文中介绍了说话人识别所需要用到的语音信号的特征参数并对他们进行了仿真实现。
虽然在实验环境中说话人研究已经能取得了很好的研究和成果,但是在运用到现实生活中的时候,因为复杂的环境噪声的影响会造成系统识别性能的急剧下降。本文针对这个问题,分为两个方向研究了如何提高说话人识别系统在环境噪声下的鲁棒性的方法:
首先介绍了基于特征参数的噪声鲁棒性算法,在这类算法里面着重研究分析了Delta参数、谱减法、PCA和RASTA滤波等在说话人识别中常用的消除噪声影响的技术。用HTK工具箱分别对语音信号提取MFCC参数和它的Delta参数、Delta-Delta参数,用来对语音信号进行识别,发现Delta参数可以提高系统的识别性能。在介绍谱减法时使用谱减法对语音进行了增强,由于谱减法对语音加强之后会出现“音乐噪声”,引入了改进的谱减算法。PCA可以对参数进行降维和去除一部分噪声,本文对PCA主轴和数据方向的一致性、PCA变换对数据的扩展性能和数据PCA的降维有益于GMM模型分类等方面进行了验证。在对RASTA的研究过程中,将其用于PLP参数的滤波,在实验中,对干净和带噪语音信号分别进行PLP和PLP-RASTA特征参数的提取,发现干净语音和带噪语音所产生PLP-RASTA参数的谱图要比两者的PLP参数谱图相近,证实了PLP-RASTA参数的鲁棒性。并基于特征参数的融合提出了一个新的抗噪特征参数,并用实验数据证实了它的有效性。
然后介绍了基于模型的对噪声进行补偿的技术,也就是在GMM模型的基础上引入UBM的GMM-UBM模型。并对SVM模型进行了研究,虽然SVM是很优秀的分类模型,但是由于声道参数不适于直接用于SVM的分类,所以论文中最后将SVM和GMM模型进行了混合,并引入了GMMsupervector的技术,很好的提高了系统的识别性能。本文用TIMIT语音库中的纯净语音和NOSIEX-92库中的噪声作为训练和识别的语音数据对上述算法在MATLA上进行了仿真,用大量的实验结果数据画出了各个系统的DET曲线,以便于对系统的性能进行分析和比较。从实验结果可以看出,这些方法使系统的噪声鲁棒性得到了很大的提高。
虽然在实验环境中说话人研究已经能取得了很好的研究和成果,但是在运用到现实生活中的时候,因为复杂的环境噪声的影响会造成系统识别性能的急剧下降。本文针对这个问题,分为两个方向研究了如何提高说话人识别系统在环境噪声下的鲁棒性的方法:
首先介绍了基于特征参数的噪声鲁棒性算法,在这类算法里面着重研究分析了Delta参数、谱减法、PCA和RASTA滤波等在说话人识别中常用的消除噪声影响的技术。用HTK工具箱分别对语音信号提取MFCC参数和它的Delta参数、Delta-Delta参数,用来对语音信号进行识别,发现Delta参数可以提高系统的识别性能。在介绍谱减法时使用谱减法对语音进行了增强,由于谱减法对语音加强之后会出现“音乐噪声”,引入了改进的谱减算法。PCA可以对参数进行降维和去除一部分噪声,本文对PCA主轴和数据方向的一致性、PCA变换对数据的扩展性能和数据PCA的降维有益于GMM模型分类等方面进行了验证。在对RASTA的研究过程中,将其用于PLP参数的滤波,在实验中,对干净和带噪语音信号分别进行PLP和PLP-RASTA特征参数的提取,发现干净语音和带噪语音所产生PLP-RASTA参数的谱图要比两者的PLP参数谱图相近,证实了PLP-RASTA参数的鲁棒性。并基于特征参数的融合提出了一个新的抗噪特征参数,并用实验数据证实了它的有效性。
然后介绍了基于模型的对噪声进行补偿的技术,也就是在GMM模型的基础上引入UBM的GMM-UBM模型。并对SVM模型进行了研究,虽然SVM是很优秀的分类模型,但是由于声道参数不适于直接用于SVM的分类,所以论文中最后将SVM和GMM模型进行了混合,并引入了GMMsupervector的技术,很好的提高了系统的识别性能。本文用TIMIT语音库中的纯净语音和NOSIEX-92库中的噪声作为训练和识别的语音数据对上述算法在MATLA上进行了仿真,用大量的实验结果数据画出了各个系统的DET曲线,以便于对系统的性能进行分析和比较。从实验结果可以看出,这些方法使系统的噪声鲁棒性得到了很大的提高。