论文部分内容阅读
语言辨识(又称语种识别)技术是语音识别技术的一个重要方向,具有广泛的应用前景。语言辨识系统主要可分为三个部分,即特征提取、模型建立和判决规则。本文以OGI电话语料库为基础,对电话信道说话人无关的语言辨识技术和方法进行了研究,在特征提取、模型建立和前后端处理等方面提出了一些创新的见解,并应用到语言辨识系统。 在模型建立方面,本文主要研究了基于统计学习理论的模型方法,提出了高斯混合二元—全局背景二元模型(GMBM-UBBM),它是高斯混合—全局背景模型(GMM-UBM)的扩展模型。本文实现了基于GMM-UBM模型和GMBM-UBBM模型的语言辨识系统,新的二元语言辨识模型GMBM-UBBM模型保留了GMM-UBM模型的语言辨识性能,引入了GMBM模型二元时序信息的优点,通过两种模型的结合,解决了原始GMM-UBM模型中前后矢量统计独立的问题,新模型既保留了GMM-UBM和GMBM优点,也弥补了各自的不足。 在训练准则上,本文研究了GMM模型的区分性训练算法,分析了目前两种主要的区分训练准则——最大互信息准则(MMI)和最小分类误差准则(MCE),提出并构建了分别基于这两种准则的语言辨识系统。这两种算法都是以类间信息来改善模型间的区分性,其实现均采用了广义概率下降法。本文首次将区分性训练算法引入到语言辨识领域,因此详细给出了两种算法的理论分析和实现过程,并通过大量实验证明,区分训练算法可以较好地改善语言辨识系统的识别率。 在特征提取模块,本文将一种新的基于GMM模型区分性训练算法的特征提取方法应用到语言辨识系统。该方法将区分性的训练机制引入到特征提取过程,根据最小分类误差准则,通过调整MFCC的滤波器组参数获得新的特征。实验结果表明,基于新特征的语言辨识系统的性能优于基于MFCC参数的系统性能,提高了系统的语言辨识率。 在后端处理模块中,多分类器决策级融合作为提高分类器性能的一种手段,被越来越多的系统采用。本文从两个方面对决策级融合进行研究,其一是对四种融合方式,即等加权方式、对数等加权方式、普通加权方式和多分类器竞争方式进行研究,其二是最佳线性融合方式研究,并在CFM、MSE和CE准则的基础上,提出了一种新的融合准则,即MCE融合准则。实验表明,新提出的MCE准则获得了和CFM、MSE和CE准则相类似的性能。 在前端处理模块,本文将一种全新的物理学思想——超顺磁性聚类算法,引入到说话人聚类领域。超顺磁性聚类算法将聚类问题阐述为一个非均匀Potts模型的平衡性质的测量问题,即在某个温度范围内,数据处于超顺磁性相位,然后利用数据点之间的相