论文部分内容阅读
文本无关说话人识别在实验室条件下性能良好,但是在实际情况中,噪声的存在会导致训练和测试环境的不匹配,从而引起系统性能下降。缺失特征方法是将语音中受噪声严重污染的频段标记出来,通过去除这些区域,仅利用剩下的可靠特征进行识别,以此来提高说话人识别系统在噪声环境下的鲁棒性。缺失特征方法在文本无关说话人识别中,第一步是将受噪声严重污染的频段标记出来,这一步称为缺失特征检测。准确的缺失特征检测对于后续的缺失特征重建,以至识别都起了关键的作用。大多数缺失特征检测方法采用局部SNR准则,依赖于对噪声的直接估计,噪声估计的不准确会导致识别率下降,尤其是在非平稳噪声环境下,噪声估计更加困难。如果不需要对噪声进行假设,而只考虑带噪语音本身的特征,就可以减少噪声估计的影响。本文研究的主要内容就是在加性噪声环境下,文本无关说话识别中,缺失特征的自动检测方法。为了实现缺失特征的自动检测,我们需要提取一些能够反映语音受噪声污染程度的语音特征。从这些特征所反映的信息就可以直接得到语音频谱的可靠性。文中主要介绍了四种语音特征,从理论和实验的角度分别得到了验证。实验表明,这些语音特征在不同噪声环境下以及不同信噪比的情况下,在时-频区域的变化规律与语音实际得到的SNR之间存在一定的关系。说明了这些语音特征在缺失特征检测中具有一定的使用前景。利用提取的语音特征,将缺失特征检测的问题转化为一个二分类问题,用这些语音特征训练分类器,直接判断语音在每个时-频区域的可靠性,也就实现了利用语音本身特征进行缺失特征自动检测的目的。本文采用的是神经网络分类器,通过神经网络的训练,将四个语音特征所显示的语音谱的可靠性综合到一个分类器中,也就是利用四个语音特征同时训练分类器,以避免单一语音特征在某些频段不能很好的反映语音受噪声污染的程度。对受不同信噪比的平稳F16噪声,非平稳factory噪声和babble噪声污染的带噪语音进行了实验,将神经网络得到的缺失特征检测结果与基于聚类的缺失特征重建方法相结合,得到说话人识别系统的识别率。实验结果表明,在相同的实验条件下,分别与理想缺失特征检测和基于谱减的缺失特征检测相比,从检测结果的准确性方面,最终的识别率角度进行分析,此方法均优于基于谱减的缺失特征检测,并且接近于理想缺失特征检测的结果。最后,讨论了缺失特征自动检测方法的扩展性问题,包括用两种噪声训练同一个分类器来提高说明此方法的噪声鲁棒性;结构GMM的重建方法来进一步说明此处自动检测方法的优越性。