论文部分内容阅读
声纹是指带有语音信息的声波频谱,是一种生物特征,具有唯一性和稳定性的特点。利用声纹识别说话人身份的技术被称为声纹识别技术。该技术是目前流行的身份认证技术之一,已经广泛地用于访问控制、刑侦、司法和信息服务等领域。目前,大多数声纹识别模型在无噪音环境中的识别准确率较高。然而,在噪音环境中,声纹识别模型的识别准确率通常会迅速下降。声纹识别的研究主要分为两个部分:语音特征提取研究和说话人建模研究。为了增强声纹识别模型的抗噪能力,本论文对语音特征提取和说话人建模技术进行了系统地研究,同时结合小波分析和深度学习理论,提出了新的语音特征提取算法和说话人模型。主要研究成果归纳如下:(1)针对倒谱系数对噪音敏感的问题,提出了小波子带倒谱系数(Wavelet Sub-band Cepstral Coefficient,WSCC)特征提取算法。该算法首先对语音样本进行离散小波变换,得到小波系数,然后采用阈值降噪技术抑制小波系数中的噪音,最后根据小波系数计算倒谱特征。幅值较大的小波系数表示语音中有价值的信息,而幅值较小的小波系数表示语音中的噪音信息。因此,通过阈值降噪过程,WSCC提取算法能够大幅度减少噪音对倒谱特征的影响,提高了倒谱特征的抗噪能力。实验结果表明:WSCC的抗噪能力比主流倒谱特征的抗噪能力更强。为了提高基于倒谱特征的声纹识别模型在噪音环境中的识别准确率,本论文将WSCC算法和概率神经网络(Probabilistic Neural Network,PNN)相结合,进一步提出了WSCC-PNN声纹识别模型。该模型采用WSCC算法将语音样本转化成语音特征,并采用PNN对语音特征中蕴含的说话人信息进行建模。实验结果表明:WSCC-PNN在噪音环境中的识别准确率比基于倒谱特征的声纹识别模型提高了5%左右。(2)针对小波包变换(Wavelet Packet Transform,WPT)对语音分析能力不足的问题,提出了感知小波包变换(Perceptual Wavelet Packet Transform,PWPT)。本论文首先通过Greenwood函数生成耳蜗听觉滤波器组,然后根据该滤波器组对7层WPT进行“修枝”操作,修枝后的WPT即为PWPT。由于耳蜗滤波过程能够突显语音中有价值的信息并抑制声学噪音,所以PWPT非常适合用于分析语音信号。实验结果表明:PWPT分析语音的能力比WPT分析语音的能力更强,并且它的计算量仅为WPT的25%左右。为了提高小波包熵特征(Wavelet packet entropy,WPE)的抗噪能力,本论文进一步提出了感知小波包熵(Perceptual Wavelet Packet Entropy,PWPE)特征提取算法。该提取算法首先采用PWPT将语音信号分解成一组子信号,然后采用阈值降噪技术抑制这些子信号中的噪音,最后计算每个子信号的熵。实验表明:基于PWPE的声纹识别模型在噪音中的识别准确率比基于WPE的声纹识别模型高了6%左右。(3)针对I-vector说话人模型(本论文称之为MIv)抗噪能力较差的问题,提出了基于PWPE特征的I-vector模型(PWPE-bassed I-vector,PIv)和基于WSCC的I-vector模型(WSCC-based I-vector,WIv)。它们的生成算法分别从语音样本的PWPE和WSCC特征空间中生成I-vector模型。PWPE和WSCC的提取算法均利用小波分析技术在多个尺度上抑制噪音,从而提高了PIv和WIv的抗噪能力。实验表明:PIv和WIv的抗噪能力比MIv模型的抗噪能力更强。为了提高基于MIv的声纹识别模型在噪音中的识别准确率,本论文进一步提出了PIv-CDS和WIv-CDS声纹识别模型。PIv-CDS采用PIv表示语音中蕴含的说话人信息,并采用余弦距离(Cosine Distance SCoring,CDS)比较不同PIv之间的相似度,以识别出说话人的身份。WIv-CDS和PIv-CDS非常相似,只是它采用WIv表示语音中的说话人信息。实验表明:PIv-CDS和WIv-CDS在噪音环境中的识别准确率比基于MIv的声纹识别模型高了8%左右。(4)针对DNN-UBM计算量过大的问题,提出了卷积神经网络背景模型(Convolutional Neural Network-based Universal Background Model,CNN-UBM)。CNN-UBM利用卷积神经网络(Convolutional Neural Network,CNN)结构实现背景模型功能。由于CNN具有强大的数据建模能力,因此CNN-UBM能够从背景语音中估计出高可靠性的说话人后验概率。另外,由于CNN结构包含的权重较少,并且CNN将ReLU函数作为激励函数,所以CNN-UBM易于训练且运行速度较快。实验结果表明:CNN-UBM和DNN-UBM的性能相似,但是它的计算量仅为DNN-UBM的12%左右。为了提高DNN/I-vector说话人模型的抗噪性能,本论文进一步提出了CNN/I-vector说话人模型。该模型的生成算法采用CNN-UBM从背景语音中估计出说话人后验概率,并基于该后验概率从语音的PWPE特征空间中生成I-vector。实验表明:基于CNN/I-vector的声纹识别模型在噪音中的识别准确率比基于DNN/I-vector的声纹识别模型高了9%左右。