论文部分内容阅读
说话人识别是通过采集说话人的声音信号进行特征提取,分析处理后来进行说话人的辨认或者确认。随着当今互联网和信息化技术的飞速发展,越来越多的相关领域将用到说话人识别技术,说话人识别技术符合现代身份信息验证要求的数字化、快捷化、隐行化的特点。说话人识别作为生物认证技术中的一项重要技术,可以广泛应用在司法刑侦、金融安全、视觉监控及身份验证等领域。随着说话人识别研究的深入,其关键性技术主要围绕着特征提取和模式匹配等问题展开。以梅尔倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)为代表的倒谱特征参数由于充分考虑人的听觉特性,不含任何前提假设,具有良好的性能,成为语音识别领域的主流参数。而以高斯混合模型(Gaussian Mixture Model, GMM)为代表的概率统计模型由于可以有效的描述语音特征参数数据集分布,成为文本无关说话人识别领域的主流技术。本文在研究说话人识别关键性算法的基础上,通过研究基于倒谱特征的特征参数提取方法和基于模板匹配及概率统计的模式匹配方法,研究实现了基于MFCC特征的VQ说话人识别系统和GMM模型的说话人识别系统。主要研究内容如下:1.在谱减法语音增强说话人识别方法的基础上,提出一种改进的谱减法,然后直接通过增强后的语音功率谱提取MFCC参数。改进的谱减法通过改变噪声功率谱估计的统计平均参数,来消除普通谱减法对语音增强时产生的音乐噪声,提升系统的性能。最后通过实验指出了语音增强方法在低信噪比情况下,对语音效果的改善尤其明显。2.提取MFCC特征参数的一阶差分特征参数,并与原参数进行组合,得到组合特征参数。该组合特征参数相比于普通特征参数具有更高的动态特性,更好的鲁棒特性。本文首次对组合参数中具有代表性的矢量进行加权,增加说话人之间的区分程度,从而提升说话人的识别效率。3.在研究了VQ基础原理、LBG应用算法与VQ码本的根本上,设计实现了基于VQ的说话人识别系统,进行了相关模型参数训练和匹配识别过程,实验分析了不同模型参数及不同语音样本时长下的系统识别性能。最后通过该系统在第三章验证了改进的混合加权的组合特征在矢量量化系统中能够有效提升系统的性能。4.在研究GMM模型参数估计期望最大化(EM)算法、模型参数初始化、训练和识别过程的基础上,设计实现了基于GMM的说话人识别系统,进行了相关模型参数训练和匹配识别过程,实验分析了不同测试时长、模型参数、GMM混合度、噪声环境对说话人识别系统性能的影响。最后在第三章验证了改进的谱减法增强语音特征参数在噪声环境下对系统的作用。