论文部分内容阅读
语音信号是用于个人身份辨识和确认的一种有效的生物特征,说话人识别的研究也是语音信号处理的一个重要的研究方向,其研究具有重要的理论意义和广泛的应用前景.近年来支持向量机(SVM)由于其具有强区分能力,尤其适合解决类似于话者确认这样的二元分类问题,因而成为模式分类研究领域的一个研究热点.该文将以SVM用于与文本无关的话者确认作为主要研究内容,对SVM话者模型的训练及匹配所存在的一些问题做了较深入的研究,同时对语音信号中所包含的激励源信息以及多信息、多子系统融合策略用于提高话者识别系统的性能及鲁棒性进行了深入的研究,主要研究内容与工作成果如下:1.针对直接采用声道倒谱特征参数时的SVM话者模型训练所面临的大样本情况下的训练效率低、不易收敛以及鲁棒性能不好等问题,提出了一种结合统计特征参数的GMM/SVM话者模型,由目标说话人和背景说话人的混合高斯模型(GMM)提取的话者统计特征训练建立SVM话者模型,从而有效地解决了SVM训练时的大样本等问题.2.研究讨论了语音信号中所携带的激励源特征及其动态参数对话者识别性能的影响,提出了一种以激励源信息作为辅助的主从系统结构策略,主系统为采用声道倒谱参数GMM-UBM系统,激励源参数采用SVM方式(SVM-PITCH),主辅系统在输出级用SVM实现非线性融合,从而可以有效的发挥两类不同特征信息对于说话人识别的互补作用,进一步提高了系统性i能及鲁棒性.3.针对训练语音和测试语音长度较短时,高斯混合模型不能取高混合度而导致的识别性能下降,提出了一种分类GMM和多子系统融合的系统方法.4.针对通过各种手机、电话通道传输的语音信号中不同频带范围受通道噪声和通道特性变化影响的不同,以及不同频带中所包含的话者个性信息对话者识别系统性能的影响与贡献不同,结合人耳听觉感知机理,我们设计了一种具有较宽的子带带宽以及具有更多的子带间交叠的基于子带GMM和SVM融合的与文本无关的话者确认系统(WSB-GMM/SVM),并通过与全频带系统相结合,大大提高了整个确认系统的性能.论文的研究工作得到了国家自然科学基金项目(60272039)和安徽省自然科学基金项目(01042205)的资助.