论文部分内容阅读
与文本无关电话语音的说话人身份识别的研究,由于其实用性,成为当今语音识别领域中的热门课题。目前,在这种复杂背景(多环境、多传输通道)下的说话人识别中,以GMM为代表的概率统计模型将话者识别问题转换成对话者语音数据分布的估计问题,取得了较好的识别效果,是当今的主流技术。然而,概率统计模型对数据有较强的依赖性,在有限训练集下,过多的模型参数将不能保证可靠估计;在训练和测试集失配的情况下,根据训练集估计的模型参数将不适用于测试集。这就限制了模型在复杂的实际环境中的性能。为了进一步提高文本无关说话人识别系统的性能及鲁棒性,本文从特征参数变换和特征空间分类的角度进行了深入研究。首先,本文针对语音信号测试和训练失配时,难以建立精确的高斯混合模型的问题,提出了一种语音参数的分段概率分布规整方法和一种基于峭度的参数规整方法。两种方法分别在概率分布和峭度的意义上将训练和测试参数都映射到一个较接近于高斯分布的情况,从而更有利于用混合度更低的模型来模拟信号在统计意义上的分布,更为准确的估计GMM的参数,在一定程度上解决了模型过学习的问题,提高了话者确认系统对电话语音长度以及使用环境的鲁棒性。其中,峭度规整方法的变换函数可以针对数据灵活调整,不会因为规整浪费语音数据,因此对短语音的说话人识别取得了更好的效果,对说话人识别技术的实用化有着重要的现实意义。其次,本文针对电话、手机语音的文本无关说话人确认,语音参数较短的问题,根据语音信号倒谱特征空间中特征矢量分布的非均匀性,以及不同的部分对说话人确认系统所具有不同的贡献和影响,提出了基于特征分类和多子系统SVM融合的CGMM-UBM结构说话人确认系统。实验表明,CGMM-UBM结构能够更为充分的利用训练数据,模型混合度可以较低,并且具有较高的模型训练效率,同时系统也获得了较好的识别性能与噪声鲁棒性,适于短语音情况下的说话人确认。SVM融合器用两类数据进行训练,因此具有良好的区分性,可以细致的反映各个子系统之间的关系,充分发挥了CGMM-UBM结构各个子系统的潜力。SVM融合还对输出评分进行规整,在一定程度上降低了确认系统对确认阈值的依赖性。以上各方法的实验都取得了良好的效果,证明了方法的有效性。最后,本文针对说话人识别中背景加性噪声的问题,研究了业界在鲁棒性语音识别方面有着较高水准的ETSI DSR AFE标准的两级维纳滤波降噪方法。并提出了一种基于无监督分割的静音检测算法用以替代ETSI DSR AFE标准中维纳滤波的噪声谱估计VAD模块,大大提高了说话人辨认系统对背景加性噪声的鲁棒性。