论文部分内容阅读
近年来,随着移动通信、网络和语音处理技术的快速发展,说话人识别技术的应用越来越广泛。本论文研究了基于高斯混合模型(GMM)的说话人识别系统,从说话人识别系统的各个组成部分分析了可以改善系统性能的可能途经,其中着重研究了白噪声环境下的说话人识别问题。本论文的主要工作有:
在说话人识别系统的语音特征参数提取部分,介绍了LPC倒谱和Mel倒谱等参数,分析了对干净语音和加白噪声语音的Mel倒谱各阶系数加权后对系统性能的影响。得出结论:高阶Mel倒谱系数抗噪性较差而低阶倒谱系数抗噪性较好。因此可以根据抗噪性的强弱对该倒谱各阶系数进行合理加权,以便突出抗噪性强的系数对识别的贡献。
提出了一种高斯混合模型距离测度的方法。基于此方法提出一种改进的说话人辨认系统:在几种参数中选择使说话人辨认系统模型平均距离较大的特征参数进行识别。研究了影响说话人识别系统性能的三个因素:GMM的参数、测试语速、测试语音长短,并且利用基音频率对说话人进行预分类来改善识别系统性能。
在加性白噪声环境下研究了Mel倒谱参数、Mel差分倒谱参数的顽健性以及他们经过倒谱系数零均值化处理后系统性能的改进。得出结论:在加性白噪声环境下,差分倒谱参数具有很好的鲁棒性;倒谱系数零均值化能有效的去除加性白噪声对系统性能的影响。
研究了说话人辨认系统中模型自适应技术。得出结论:采用一年前的模板,当进行自适应后识别率提高很多。虽然自适应后仍然比重新训练模板识别率稍低,但从实验中可以明显感到,自适应比重新训练模板节省很多时间,这对于说话人的实时识别是有益的。