论文部分内容阅读
说话人识别,属于生物识别的一种,也被称为“声纹识别”,是根据说话人所发语音对说话人身份进行判定,实现对说话人身份的鉴别与认证的技术。由于语音具有通用性、独特性、高可采用性,及易收集性等特点,使得说话人识别技术得到广泛的应用。近年来,随着科学技术水平的不断提高,说话人识别技术的应用获得了飞速的发展,并逐渐成为人们工作和生活中最常用的安全验证方式。但是,随着人类科技的不断发展,不同应用领域对该技术提出了更高的要求,使得说话人识别技术的进一步发展更加举步维艰。一方面,说话人特征的不稳定性,特征会随着时间和年龄的变化而改变,同时也受到说话人的情绪及健康状况的影响;另一方面,背景噪声、训练数据与测试数据的时长、通信信道对语音信号传输过程的失真、他人的模仿及方言的干扰等诸多外界因素的影响,这些问题都严重影响到说话人识别系统的实时性能。本文对基于感知对数面积比系数的说话人确认系统进行了研究,包括说话人的特征提取及系统的噪音鲁棒性。首先,针对MFCC特征的说话人确认系统在干净语音环境下具有很高识别率,但在噪音环境下急剧下降的缺点,本文提取感知对数面积比系数(Perceptual Log Area Ratio,简称PLAR)作为说话人特征,并对PLAR的噪音鲁棒性进行了实验分析。该特征运用人类听觉感知机理来表征说话人的个性特征,能够很好的模拟人耳的听觉特性,具有良好的可分性。为了结合MFCC与PLAR各自的优势,提高说话人确认系统在噪音环境下的识别性能,根据各维特征在噪音环境下鉴别能力的不同,将其与MFCC进行融合。结果表明,通过将PLAR与MFCC进行特征域和分数域的融合,体现出两者之间存在着互补性,有效提高了说话人确认系统的识别性能。为提高PLAR特征在噪音环境下的鲁棒性,在语音的前端处理中,引入多窗频谱估计方法(Multitapering),代替基线系统中传统的DFT对信号进行频谱分析,提出了一种改进的特征参数—MTPLAR。多窗频谱估计,采用多个窗函数的加权平均值来获得信号的频谱结构,具有更加稳定的频谱分析性能,因此,可以获得鲁棒性更高的特征参数。实验结果证明,与传统的PLAR相比,基于MTPLAR的说话人确认系统在识别率及鲁棒性方面均有明显提高。