论文部分内容阅读
利用语音信号进行说话人身份识别,是语音研究领域的一个重要方向,具有越来越重要的社会意义和实用价值。根据说话的内容,可以分为文本相关和无关两个方面。由于文本无关具有更加灵活与适用面广的特点而成为主要研究课题。 在文本无关说话人识别中,GMM将话者识别问题转换成对话者语音数据分布的估计问题,从而将复杂的语音训练、匹配的问题分解为模型表达形式的选择、模型参数的训练,以及概率的计算等等子问题,解决了话者识别任务中的很多难题。并且由于GMM具有简单、灵活、有效的特点以及较好的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流技术。近年来,在复杂背景环境下,UBM-MAP-GMM表现出更为优异的性能,特别是对失配情况有很高的鲁棒性。 然而,GMM对数据有较强的依赖性,在有限训练集下,过多的模型参数将不能保证可靠估计,这就限制了GMM模型的性能。首先,由于特征矢量维数较高,使用全矩阵形式协方差会导致参数巨大而无法可靠估计。其次,虽然使用对角形式的协方差矩阵模型参数较少,但是其隐含的前提假设是参数各维之间不相关,这种假设是不合理的。最后,由于自适应数据有限,使得目前对UBM作自适应得到目标GMM时只能自适应均值,而无法对协方差参数进行自适应。 为了进一步提高文本无关说话人识别系统的性能,本文从上述三个方面展开研究,分别提出不同的方法,在有限的训练集的条件下,提高文本无关下的GMM模型性能。 首先,针对全协方差矩阵模型参数过多,难以可靠估计的问题。本文提出了一种基于相关系数矩阵共享的协方差矩阵直接估计方法。这种方法既保证了GMM总的模型参数不致过高,可以可靠估计,又使得GMM具有显式描述特征矢量各维之间的相关性能力。 其次,虽然可以在特征空间进行线性解相关,使特征矢量各维相关性减弱,使之适合对角协方差假设。然而,由于特征矢量分布形式的复杂性,很难找到一个线性变换矩阵,为空间中所有的特征矢量解相关。因此,本文提出了一种基于模型的分类子空间解相关的方法,利用GMM对特征矢量空间分布的描述,将特征空间分解成多个子空间,在每个子空间中分别进行特征矢量的线性解相关,从而使解相关更为精细。 为了有效实现上述两种方法,本文分别提出了两种对GMM中的高斯成分进