论文部分内容阅读
说话人识别技术是使用语音中所包含的说话人特有的个性信息为生物特征,自动进行身份识别的过程。它被认为是最自然的和最经济的生物认证技术,具有广泛的应用前景。传统的说话人识别系统在训练和测试语料都为中性语音的时候,已获得了非常出色的识别性能。然而,当用户提供的语料包含不同情感类型的语音时,由于说话人情感状态改变引起的发音方式的变化,导致训练和测试语音的特征分布不匹配,使得基于传统的说话人识别方法的系统性能急剧下降,我们把这种测试或训练语料中包含情感语音的说话人识别称为情感说话人识别。在研究了情感说话人识别技术最新进展和情感因素影响的基础上,本文紧紧围绕如何提高训练语音和测试语音之间的匹配程度这个问题,从情感拓展和情感屏蔽角度给出了有效的关键算法,构建了情感说话人识别系统的解决方案。本文的主要贡献总结如下:1.深入分析了情感因素对说话人识别系统的影响文中分析了情感因素对基频和频谱分布的影响;分析了不同情感语音在特征层和模型层上对说话人个性信息的影响;分析了人耳对情感因素的鲁棒性;分析真实环境中情感因素影响存在的普遍性;分析了情感因素对说话人识别系统性能的影响。2.研究了基于通道补偿的情感规整方法在分析了情感、噪音和通道三个问题之间的异同后,发现解决通道噪音问题的很多思路和方法都可以应用在情感说话人识别中。冗余属性投影和隐藏因子分析是两种提高通道鲁棒性的方法,我们考察了其用于情感规整时的性能。3.提出了两种基于中性情感模型转换算法的情感拓展方法在实验验证了不同说话人的情感表达方式是一致的这个假设的基础上,提出了中性情感模型转换方程,建立了中性模型和情感模型的转换关系。提出了基于高斯分量和基于参数的方法来求解该转换方程,通过它可以实现中性模型到情感模型的转换,从而让系统熟悉情感语音的分布。4.提出了一种基于频谱平移的情感拓展方法频谱平移方法通过改变语音帧的功率谱来合成各种类型的情感语音。该方法和多状态模型的结合使用,有利于提高系统的情感鲁棒性。实验结果表明采用该方法合成的情感语音比中性语音更接近说话人真实的情感语音。它的最大优势是能很方便的和传统的说话人识别方法相结合,应用到现有的说话人识别体系中。5.提出了一种基于得分选择的情感屏蔽方法基于得分选择的情感屏蔽方法适用于测试语音是情感和中性语音混合的情况。在分析了不同情感比率下说话人识别系统的表现后,文中给出了两个结论:情感比率和识别性能成反比;中性特征在自身中性模型上的得分分布在较高的区域。以此为基础,通过得分选择的方法来剔除情感语音帧,降低测试语音的情感比率,提高系统性能。6.提出了一种基于混合模型降维的方法来加速情感说话人识别自适应方法对提高情感说话人系统性能有很大的帮助,但是高阶的通用背景模型需要极大的计算量,影响了其在真实环境中的应用。文中提出了一种基于混合模型降维的方法来降低通用背景模型的阶数,以此来提高系统的运行速度。