论文部分内容阅读
说话人识别技术是一种通过语音自动识别说话人身份的生物识别技术,具有实现简便、经济和扩展性强等优点,在信息服务、安全保障、国防军事、公安司法和医学应用等领域有着广阔的应用前景,是语音信号处理和生物特征识别领域的重点研究方向。
说话人识别技术虽然在实验室环境取得了较大成功,但由于说话人特征的复杂性和实际应用环境的多样性,其性能尚不能满足广泛应用的需求。制约说话人识别技术应用的因素包括:对训练数据量依赖较高,识别速度慢,环境鲁棒性差等。本文主要从分类模型和环境失配补偿两个方面对说话人识别技术进行了研究,主要的研究内容如下:
1)深入研究了说话人识别技术中的特征提取算法和识别模型,并分别比较了常用方法的优缺点。在实验基础上重点分析了识别模型中的最大后验高斯混合模型(GMMMAP),实验结果表明基于GMMMAP的说话人识别系统具有较好的性能,因此将其作为后续实验的比较对象,并进一步研究其补偿算法。
2)提出了一种基于最大后验矢量量化模型的AdaBoost分类算法(VQMB),解决了传统说话人识别模型在应用AdaBoost算法后容易过学习且识别速度较慢的问题。一方面,通过实验分别讨论了基分类器胞腔数、说话人数以及训练数据量对系统性能的影响,并在此基础上通过改变基分类器胞腔数来解决AdaBoost算法的过学习问题。另一方面,通过VQMB算法的识别速度实验论证了AdaBoost算法的识别速度正比于迭代次数、基分类器胞腔数以及距离计算量,提出了通过采用模版模型作为基分类器来加快AdaBoost算法识别速度的方法。实验结果表明,与常用生成性模型算法相比,本算法具有所需训练数据少、识别速度快的优点。
3)深入研究了说话人识别技术中常用环境补偿算法的优缺点及其在说话人识别中的适用性,重点分析了基于矢量泰勒级数(VTS)的特征补偿算法和模型自适应算法。分析结果表明,基于VTS的环境补偿算法可同时补偿卷积噪声和加性噪声,但只能处理两类噪声的对数谱域均值,这在信道和背景噪声变化较大的说话人识别应用中,无法有效补偿环境失配,因此进一步研究其改进算法。
4)基于VTS算法提出了可更新卷积噪声方差的环境补偿算法,解决了说话人识别系统应用中卷积噪声变化较大以及卷积噪声和加性噪声同时失配的问题。算法在矢量泰勒级数展开的基础上,给出了卷积噪声方差的近似闭式解,构建了联合快速估计卷积噪声和加性噪声均值和方差的框架,并将其分别用于特征域和模型域的补偿。实验结果表明,本算法对卷积噪声方差的估计收敛速度快,所需自适应数据较少;可以有效降低卷积噪声和加性噪声同时失配的影响,特别适合于信道变化较大的失配环境补偿;基于VTS的模型自适应算法性能优于基于VTS的特征补偿算法,在低信噪比条件下尤为明显,因此进一步研究了其对失配训练环境的补偿。
5)分别提出了基于最大似然线性回归(MLLR)和基于VTS的环境自适应训练算法,解决了说话人识别系统实际应用中纯净训练语音不易获取的问题。算法利用模型自适应算法从失配训练语音中估计失配训练环境信息,再使用该信息对失配环境下的说话人模型进行补偿,使之成为纯净语音环境下的说话人模型。算法实现了利用失配训练语音来训练具有统一基准环境的说话人模型,减小了基准环境差异所导致的环境补偿误差。实验结果表明,对失配训练语音的补偿有效的提高了系统性能,在训练环境失配较大的情况下尤为明显;基于VTS的环境自适应算法补偿效果优于基于MLLR的环境自适应算法,误识率更低。与其它失配训练环境补偿算法相比,上述两种算法无需事先训练信道的先验模型,对训练数据量要求较小。