论文部分内容阅读
如今随着信息技术和科技水平的快速发展,国家对信息安全的需求程度也越来越高,而生物特征识别结合了生物学和信息学,使身份识别更加的方便安全。其中,声纹因其获取成本低、处理相对简单等优势,从一开始就是生物识别领域一个重要的研究方向。近几十年来,声纹识别领域已经获得了重大的进步,被广泛应用于国防,金融,刑侦,医疗等军用民用安全领域。但是面对多人说话场景或者强干扰噪音的背景下,声纹识别的效果依旧不理想。针对多人说话背景下声纹识别效率低下的问题,需要对语音进行先分离后识别,以提高识别效率。本论文针对特征提取、语音分离、声纹识别等相关算法模型进行具体描述,就基于语音分离的声纹识别系统展开深入研究。论文先总体描述了语音分离及声纹识别的基础理论,然后对语音分离、融合特征提取、模型训练、模式匹配等内容进行具体分析。在语音分离阶段,选择利用改进高频区域的计算听觉场景分析模型(CASA)进行语音分离,得到目标说话人的语音波形。在特征提取阶段,选择对基于人体发声结构提出的基音周期和基于人体听觉结构提出的Mel频率倒谱参数及其差分参数进行融合得到3L+1维的融合特征参数PITCHMFCC。在声纹识别阶段,分析经典声纹识别模型GMM,提出融合CASA的语音分离识别模型SGMM并从多个维度进行仿真实验,比较两个声纹识别模型在单人和混合语音场景下的识别准确率,此外,还分析了不同性别混合语音,不同背景语音长度以及说话人录制背景语音时和话筒的不同距离对SGMM模型识别率的影响。最后,在仿真环境下实现基于语音分离的声纹识别系统,并对其系统模块和流程进行细致描述和展示。本论文主要工作如下:提出基于基音周期和Mel频率倒谱参数的融合特征参数,分析计算听觉场景分析语音分离模型和GMM声纹识别模型,提出了语音分离识别模型SGMM,并用实验证明了该模型的有效性,最后通过编程仿真实现了基于语音分离的声纹识别系统。