论文部分内容阅读
自动说话人识别属于多维模式识别和智能计算机接口的范畴,其研究的根本目的是使机器能够自动辨认出说话人。当前在实验室环境下说话人识别系统取得了长足的进步,有着很好的性能。但是在实际环境中,由于存在复杂多变的噪声和信道干扰,系统性能急剧下降。因此如何有效地抑制或消除信道干扰,提升说话人识别系统的鲁棒性成为一个重要课题。信道鲁棒性问题的根源可以归结为说话人识别训练环境和测试环境之间的不匹配。一般来说,信道补偿算法可以粗略归为三方面:特征域,模型域和得分域。特征域方法主要着眼于对特征参数本身的处理和特征参数提取过程中方法的改进,使得随着环境变化特征参数变化尽可能小。模型域方法则根据信道问题来相应地调整模型,使得模型和实际环境相匹配。得分域方法主要通过各类得分规整算法来消除因信道所带来的得分差异。本文前两章首先介绍说话人识别任务,特别是文本无关的说话人确认,然后详细讨论了高斯混合–通用背景模型的基线系统。本文第三章简化了联合因子分析模型,提出了一种可同时用于特征域和模型域的信道补偿算法–本征信道,它简化了联合因子分析模型,大大降低了复杂度和运算量,使实时应用成为可能。特征域算法映射得到的特征可用于所有其他说话人系统,大大增强了算法的通用性和推广性。在NIST2006说话人评测的核心测试集上,模型域系统的等错误率相对于基线系统下降了48.4%,在某些场合可取得和联合因子分析系统相近的性能。针对NIST 2008说话人评测核心测试集需要,本文第四章实现了联合因子分析模型,并针对其对说话人空间和信道空间建模的不足,提出了一种串行估计说话人空间模型参数,并行估计信道空间模型参数的训练方法,此方法在降低原有模型训练运算量和复杂度的同时,还可以取得更优的性能。该系统的等错误率相对于基线系统下降了69.5%,在NIST 2008说话人评测中,改进的联合因子分析系统为最好的单系统。