基于小波分析的声纹识别关键技术研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:lioutao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹是指带有语音信息的声波频谱,是一种生物特征,具有唯一性和稳定性的特点。利用声纹识别说话人身份的技术被称为声纹识别技术。该技术是目前流行的身份认证技术之一,已经广泛地用于访问控制、刑侦、司法和信息服务等领域。目前,大多数声纹识别模型在无噪音环境中的识别准确率较高。然而,在噪音环境中,声纹识别模型的识别准确率通常会迅速下降。声纹识别的研究主要分为两个部分:语音特征提取研究和说话人建模研究。为了增强声纹识别模型的抗噪能力,本论文对语音特征提取和说话人建模技术进行了系统地研究,同时结合小波分析和深度学习理论,提出了新的语音特征提取算法和说话人模型。主要研究成果归纳如下:(1)针对倒谱系数对噪音敏感的问题,提出了小波子带倒谱系数(Wavelet Sub-band Cepstral Coefficient,WSCC)特征提取算法。该算法首先对语音样本进行离散小波变换,得到小波系数,然后采用阈值降噪技术抑制小波系数中的噪音,最后根据小波系数计算倒谱特征。幅值较大的小波系数表示语音中有价值的信息,而幅值较小的小波系数表示语音中的噪音信息。因此,通过阈值降噪过程,WSCC提取算法能够大幅度减少噪音对倒谱特征的影响,提高了倒谱特征的抗噪能力。实验结果表明:WSCC的抗噪能力比主流倒谱特征的抗噪能力更强。为了提高基于倒谱特征的声纹识别模型在噪音环境中的识别准确率,本论文将WSCC算法和概率神经网络(Probabilistic Neural Network,PNN)相结合,进一步提出了WSCC-PNN声纹识别模型。该模型采用WSCC算法将语音样本转化成语音特征,并采用PNN对语音特征中蕴含的说话人信息进行建模。实验结果表明:WSCC-PNN在噪音环境中的识别准确率比基于倒谱特征的声纹识别模型提高了5%左右。(2)针对小波包变换(Wavelet Packet Transform,WPT)对语音分析能力不足的问题,提出了感知小波包变换(Perceptual Wavelet Packet Transform,PWPT)。本论文首先通过Greenwood函数生成耳蜗听觉滤波器组,然后根据该滤波器组对7层WPT进行“修枝”操作,修枝后的WPT即为PWPT。由于耳蜗滤波过程能够突显语音中有价值的信息并抑制声学噪音,所以PWPT非常适合用于分析语音信号。实验结果表明:PWPT分析语音的能力比WPT分析语音的能力更强,并且它的计算量仅为WPT的25%左右。为了提高小波包熵特征(Wavelet packet entropy,WPE)的抗噪能力,本论文进一步提出了感知小波包熵(Perceptual Wavelet Packet Entropy,PWPE)特征提取算法。该提取算法首先采用PWPT将语音信号分解成一组子信号,然后采用阈值降噪技术抑制这些子信号中的噪音,最后计算每个子信号的熵。实验表明:基于PWPE的声纹识别模型在噪音中的识别准确率比基于WPE的声纹识别模型高了6%左右。(3)针对I-vector说话人模型(本论文称之为MIv)抗噪能力较差的问题,提出了基于PWPE特征的I-vector模型(PWPE-bassed I-vector,PIv)和基于WSCC的I-vector模型(WSCC-based I-vector,WIv)。它们的生成算法分别从语音样本的PWPE和WSCC特征空间中生成I-vector模型。PWPE和WSCC的提取算法均利用小波分析技术在多个尺度上抑制噪音,从而提高了PIv和WIv的抗噪能力。实验表明:PIv和WIv的抗噪能力比MIv模型的抗噪能力更强。为了提高基于MIv的声纹识别模型在噪音中的识别准确率,本论文进一步提出了PIv-CDS和WIv-CDS声纹识别模型。PIv-CDS采用PIv表示语音中蕴含的说话人信息,并采用余弦距离(Cosine Distance SCoring,CDS)比较不同PIv之间的相似度,以识别出说话人的身份。WIv-CDS和PIv-CDS非常相似,只是它采用WIv表示语音中的说话人信息。实验表明:PIv-CDS和WIv-CDS在噪音环境中的识别准确率比基于MIv的声纹识别模型高了8%左右。(4)针对DNN-UBM计算量过大的问题,提出了卷积神经网络背景模型(Convolutional Neural Network-based Universal Background Model,CNN-UBM)。CNN-UBM利用卷积神经网络(Convolutional Neural Network,CNN)结构实现背景模型功能。由于CNN具有强大的数据建模能力,因此CNN-UBM能够从背景语音中估计出高可靠性的说话人后验概率。另外,由于CNN结构包含的权重较少,并且CNN将ReLU函数作为激励函数,所以CNN-UBM易于训练且运行速度较快。实验结果表明:CNN-UBM和DNN-UBM的性能相似,但是它的计算量仅为DNN-UBM的12%左右。为了提高DNN/I-vector说话人模型的抗噪性能,本论文进一步提出了CNN/I-vector说话人模型。该模型的生成算法采用CNN-UBM从背景语音中估计出说话人后验概率,并基于该后验概率从语音的PWPE特征空间中生成I-vector。实验表明:基于CNN/I-vector的声纹识别模型在噪音中的识别准确率比基于DNN/I-vector的声纹识别模型高了9%左右。
其他文献
健康是中国经济起飞的主要动力之一。中国从20世纪50年代到80年代,30多年的健康累积为经济起飞提供了雄厚的健康人力资源。首先,国民的平均期望寿命迅速提高,从1949年的35岁
[目的]肝脏疾病作为现代社会较为常见的人类疾病之一,造成广泛的社会及个人负担,严重威胁人类健康。肝脏疾病的发生发展与多种因素相关但大多又都缺乏确凿证据。感染因素作为
承德市财政局按照市委、市政府着力改善“两个环境”工作要求,对市本级行政事业单位对外出租、出借、闲置房产进行现场核实、实地拍照,建立了详实的档案资料。针对2012年资产清
期刊
"动画纪录片"的合法性与本质一直是学界讨论的热点,本文将对Colourful Claims:towards a theory of animated documentary(2011)和《动画纪录片的历史与现状》(2011)两篇论文
由于传统医学教学模式下注重医学生职业技能的培养,忽视医患沟通能力的塑造,使得大量护生在步入临床实习时产生沟通障碍。通过提高带教老师素质、岗前培训、沟通技巧培养、沟通
移动前传(MFH)是集中式无线接入网(C-RAN)架构中的一种信息传送技术,负责实现射频拉远单元(RRU)与基带处理单元(BBU)之间的无线数据传输。由于具有低成本、高容量的特点,时分
<正>湖北日报讯:食用菌继续领跑湖北农产品出口。7月11日,记者从省农业农村厅获悉,去年湖北食用菌超过四成产品出口海外,远销50余个国家和地区;出口额达9.71亿美元,占全省农
自改革开放以来,我国经济迅速发展,人均收入逐年攀升,然而,在经济迅速发展的同时,各种经济社会问题也逐步显现,其中,人均收入差距扩大的问题尤为突出。与此同时,伴随着计划生
目的 研究 3个从怀槐 (Maackia amurensis)中提取分离得到的异黄酮单体化合物 (染料木素genistein、芒柄花黄素 form ononetin、鸢尾种苷元 tectorigenin)的抗肿瘤细胞增殖
近年来,随着电子政务的蓬勃发展,政务APP逐渐成为政府服务的重要手段,但在政务APP的推广过程中,也出现了一些问题。本文通过内容分析的方法,选择了直辖市上海、省会城市成都、特区城市深圳的政务APP进行调查,既看到了三个具有代表性的城市在政务APP建设方面的优长,也找出了政务APP的不足。针对这些问题提出了相应的解决办法,主要观点是:政务APP应向一站式方向发展,以市民实用性为主导,以用户为中心,推