基于感知对数面积比系数的说话人确认系统的研究

来源 :太原理工大学 | 被引量 : 2次 | 上传用户:wn208001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别,属于生物识别的一种,也被称为“声纹识别”,是根据说话人所发语音对说话人身份进行判定,实现对说话人身份的鉴别与认证的技术。由于语音具有通用性、独特性、高可采用性,及易收集性等特点,使得说话人识别技术得到广泛的应用。近年来,随着科学技术水平的不断提高,说话人识别技术的应用获得了飞速的发展,并逐渐成为人们工作和生活中最常用的安全验证方式。但是,随着人类科技的不断发展,不同应用领域对该技术提出了更高的要求,使得说话人识别技术的进一步发展更加举步维艰。一方面,说话人特征的不稳定性,特征会随着时间和年龄的变化而改变,同时也受到说话人的情绪及健康状况的影响;另一方面,背景噪声、训练数据与测试数据的时长、通信信道对语音信号传输过程的失真、他人的模仿及方言的干扰等诸多外界因素的影响,这些问题都严重影响到说话人识别系统的实时性能。本文对基于感知对数面积比系数的说话人确认系统进行了研究,包括说话人的特征提取及系统的噪音鲁棒性。首先,针对MFCC特征的说话人确认系统在干净语音环境下具有很高识别率,但在噪音环境下急剧下降的缺点,本文提取感知对数面积比系数(Perceptual Log Area Ratio,简称PLAR)作为说话人特征,并对PLAR的噪音鲁棒性进行了实验分析。该特征运用人类听觉感知机理来表征说话人的个性特征,能够很好的模拟人耳的听觉特性,具有良好的可分性。为了结合MFCC与PLAR各自的优势,提高说话人确认系统在噪音环境下的识别性能,根据各维特征在噪音环境下鉴别能力的不同,将其与MFCC进行融合。结果表明,通过将PLAR与MFCC进行特征域和分数域的融合,体现出两者之间存在着互补性,有效提高了说话人确认系统的识别性能。为提高PLAR特征在噪音环境下的鲁棒性,在语音的前端处理中,引入多窗频谱估计方法(Multitapering),代替基线系统中传统的DFT对信号进行频谱分析,提出了一种改进的特征参数—MTPLAR。多窗频谱估计,采用多个窗函数的加权平均值来获得信号的频谱结构,具有更加稳定的频谱分析性能,因此,可以获得鲁棒性更高的特征参数。实验结果证明,与传统的PLAR相比,基于MTPLAR的说话人确认系统在识别率及鲁棒性方面均有明显提高。
其他文献
当前,4G在全球范围内进入了高速发展期,已经能够实现高质量的移动宽带服务。与此同时,5G标准正在加紧制定中,并预计2020年投入商用。相比4G,5G在容量、数据速率、时延等方面会有质
随着Internet及环球网技术的不断发展,java语言作为一门网络编程语言也得到了迅速发展,在不同的设备、计算机和网络中得到广泛应用。同时,java做为一门面向对象的程序设计语
GNSS定位系统有着覆盖范围广、全天候、高精度定位的优点,但是在室内和地下等GNSS信号被遮蔽的环境中,卫星信号衰落严重而导致可见星数目严重不足,这限制了GNSS系统的应用范围。
当今时代是一个飞速发展的时代,互联网和移动通信网络不断普及,各种新技术不断出现。随着科技的发展和社会的进步,人们对家居生活智能化、舒适性与安全性提出了更高的要求,智能家
随着全球卫星导航系统的不断发展,我国北斗卫星导航系统研究及应用均取得了长足的进步。2012年12月,由我国自主研发的北斗卫星导航系统(BDS)正式对亚太地区提供导航、定位、短
1993年出现的Turbo码,由于其很好的运用了Shannon信道编码理论中的随机性编码条件,从而获得了接近Shannon理论极限的译码性能,首次证明了香农理论的正确性。实现Turbo码随机
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因为其频谱利用率高、抗频率选择性衰落效果好,被广泛应用在当代无线通信标准之中。然而随着高速铁路交通的
近年来,随着智能移动设备的快速普及,移动数据流量需求呈指数式增长,与此同时也带来了更加严重的能量消耗问题。因此,在蜂窝网中引入节能的终端直通技术,从而在满足高速率要
随着移动通信技术的发展,移动通信网络构架越来越复杂,覆盖预测面临严峻的考验,要求覆盖预测模型能够适应复杂的网络技术和不同的网络制式,网络优化工具向智能化、自动化方向
P2P技术把互联网上大量的计算机组织起来,参与者通过共享各自的CPU、存储以及带宽等资源,使得整个P2P网络的资源和服务能力随着参与者的加入而不断增大。如今,以Bittorrent为