基于小波分析的声纹识别关键技术研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户：lioutao2009

【摘要】

：

声纹是指带有语音信息的声波频谱,是一种生物特征,具有唯一性和稳定性的特点。利用声纹识别说话人身份的技术被称为声纹识别技术。该技术是目前流行的身份认证技术之一,已经

【作者】

：

雷磊

【出处】

：

电子科技大学

【发表日期】

：

2019年01期

【关键词】

：

声纹识别小波分析语音特征提取算法说话人模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

声纹是指带有语音信息的声波频谱,是一种生物特征,具有唯一性和稳定性的特点。利用声纹识别说话人身份的技术被称为声纹识别技术。该技术是目前流行的身份认证技术之一,已经广泛地用于访问控制、刑侦、司法和信息服务等领域。目前,大多数声纹识别模型在无噪音环境中的识别准确率较高。然而,在噪音环境中,声纹识别模型的识别准确率通常会迅速下降。声纹识别的研究主要分为两个部分:语音特征提取研究和说话人建模研究。为了增强声纹识别模型的抗噪能力,本论文对语音特征提取和说话人建模技术进行了系统地研究,同时结合小波分析和深度学习理论,提出了新的语音特征提取算法和说话人模型。主要研究成果归纳如下:(1)针对倒谱系数对噪音敏感的问题,提出了小波子带倒谱系数(Wavelet Sub-band Cepstral Coefficient,WSCC)特征提取算法。该算法首先对语音样本进行离散小波变换,得到小波系数,然后采用阈值降噪技术抑制小波系数中的噪音,最后根据小波系数计算倒谱特征。幅值较大的小波系数表示语音中有价值的信息,而幅值较小的小波系数表示语音中的噪音信息。因此,通过阈值降噪过程,WSCC提取算法能够大幅度减少噪音对倒谱特征的影响,提高了倒谱特征的抗噪能力。实验结果表明:WSCC的抗噪能力比主流倒谱特征的抗噪能力更强。为了提高基于倒谱特征的声纹识别模型在噪音环境中的识别准确率,本论文将WSCC算法和概率神经网络(Probabilistic Neural Network,PNN)相结合,进一步提出了WSCC-PNN声纹识别模型。该模型采用WSCC算法将语音样本转化成语音特征,并采用PNN对语音特征中蕴含的说话人信息进行建模。实验结果表明:WSCC-PNN在噪音环境中的识别准确率比基于倒谱特征的声纹识别模型提高了5%左右。(2)针对小波包变换(Wavelet Packet Transform,WPT)对语音分析能力不足的问题,提出了感知小波包变换(Perceptual Wavelet Packet Transform,PWPT)。本论文首先通过Greenwood函数生成耳蜗听觉滤波器组,然后根据该滤波器组对7层WPT进行“修枝”操作,修枝后的WPT即为PWPT。由于耳蜗滤波过程能够突显语音中有价值的信息并抑制声学噪音,所以PWPT非常适合用于分析语音信号。实验结果表明:PWPT分析语音的能力比WPT分析语音的能力更强,并且它的计算量仅为WPT的25%左右。为了提高小波包熵特征(Wavelet packet entropy,WPE)的抗噪能力,本论文进一步提出了感知小波包熵(Perceptual Wavelet Packet Entropy,PWPE)特征提取算法。该提取算法首先采用PWPT将语音信号分解成一组子信号,然后采用阈值降噪技术抑制这些子信号中的噪音,最后计算每个子信号的熵。实验表明:基于PWPE的声纹识别模型在噪音中的识别准确率比基于WPE的声纹识别模型高了6%左右。(3)针对I-vector说话人模型(本论文称之为MIv)抗噪能力较差的问题,提出了基于PWPE特征的I-vector模型(PWPE-bassed I-vector,PIv)和基于WSCC的I-vector模型(WSCC-based I-vector,WIv)。它们的生成算法分别从语音样本的PWPE和WSCC特征空间中生成I-vector模型。PWPE和WSCC的提取算法均利用小波分析技术在多个尺度上抑制噪音,从而提高了PIv和WIv的抗噪能力。实验表明:PIv和WIv的抗噪能力比MIv模型的抗噪能力更强。为了提高基于MIv的声纹识别模型在噪音中的识别准确率,本论文进一步提出了PIv-CDS和WIv-CDS声纹识别模型。PIv-CDS采用PIv表示语音中蕴含的说话人信息,并采用余弦距离(Cosine Distance SCoring,CDS)比较不同PIv之间的相似度,以识别出说话人的身份。WIv-CDS和PIv-CDS非常相似,只是它采用WIv表示语音中的说话人信息。实验表明:PIv-CDS和WIv-CDS在噪音环境中的识别准确率比基于MIv的声纹识别模型高了8%左右。(4)针对DNN-UBM计算量过大的问题,提出了卷积神经网络背景模型(Convolutional Neural Network-based Universal Background Model,CNN-UBM)。CNN-UBM利用卷积神经网络(Convolutional Neural Network,CNN)结构实现背景模型功能。由于CNN具有强大的数据建模能力,因此CNN-UBM能够从背景语音中估计出高可靠性的说话人后验概率。另外,由于CNN结构包含的权重较少,并且CNN将ReLU函数作为激励函数,所以CNN-UBM易于训练且运行速度较快。实验结果表明:CNN-UBM和DNN-UBM的性能相似,但是它的计算量仅为DNN-UBM的12%左右。为了提高DNN/I-vector说话人模型的抗噪性能,本论文进一步提出了CNN/I-vector说话人模型。该模型的生成算法采用CNN-UBM从背景语音中估计出说话人后验概率,并基于该后验概率从语音的PWPE特征空间中生成I-vector。实验表明:基于CNN/I-vector的声纹识别模型在噪音中的识别准确率比基于DNN/I-vector的声纹识别模型高了9%左右。

其他文献

内蒙古爱康健康体检管理有限公司发展战略研究

健康是中国经济起飞的主要动力之一。中国从20世纪50年代到80年代,30多年的健康累积为经济起飞提供了雄厚的健康人力资源。首先,国民的平均期望寿命迅速提高,从1949年的35岁

学位

健康体检健康管理战略规划

Epstein-Barr病毒、巨细胞病毒感染与不同肝病的相关性分析及临床特征探索

[目的]肝脏疾病作为现代社会较为常见的人类疾病之一,造成广泛的社会及个人负担,严重威胁人类健康。肝脏疾病的发生发展与多种因素相关但大多又都缺乏确凿证据。感染因素作为

学位

EB病毒巨细胞病毒肝病自身免疫性肝病

承德盘活资产节省租金263万

承德市财政局按照市委、市政府着力改善“两个环境”工作要求，对市本级行政事业单位对外出租、出借、闲置房产进行现场核实、实地拍照，建立了详实的档案资料。针对2012年资产清

期刊

盘活资产

中西方“动画纪录片”研究视角对比——以Colourful Claims: towards a theory of animated documentary和《动画纪录片的历史与现状》为例

"动画纪录片"的合法性与本质一直是学界讨论的热点,本文将对Colourful Claims:towards a theory of animated documentary(2011)和《动画纪录片的历史与现状》(2011)两篇论文

期刊

动画纪录片“动画纪录片”

实习护生医患沟通障碍原因分析与对策

由于传统医学教学模式下注重医学生职业技能的培养，忽视医患沟通能力的塑造，使得大量护生在步入临床实习时产生沟通障碍。通过提高带教老师素质、岗前培训、沟通技巧培养、沟通

期刊

护生沟通能力培养

面向功能分割的TDM-PON移动前传网络时延建模与优化策略研究

移动前传(MFH)是集中式无线接入网(C-RAN)架构中的一种信息传送技术,负责实现射频拉远单元(RRU)与基带处理单元(BBU)之间的无线数据传输。由于具有低成本、高容量的特点,时分

学位

时分复用无源光网络移动前传时延优化无线业务感知

食用菌占湖北省农产品出口半壁江山

<正>湖北日报讯:食用菌继续领跑湖北农产品出口。7月11日,记者从省农业农村厅获悉,去年湖北食用菌超过四成产品出口海外,远销50余个国家和地区;出口额达9.71亿美元,占全省农

期刊

农产品出口出口额湖北省

收入差距、子女需求及生育行为差异

自改革开放以来,我国经济迅速发展,人均收入逐年攀升,然而,在经济迅速发展的同时,各种经济社会问题也逐步显现,其中,人均收入差距扩大的问题尤为突出。与此同时,伴随着计划生

学位

收入阶层生育行为差异人力资本投资孩子质量数量替代理论收入弹性

异黄酮类化合物抗肿瘤细胞增殖作用

目的　研究 3个从怀槐 (Maackia amurensis)中提取分离得到的异黄酮单体化合物 (染料木素genistein、芒柄花黄素 form ononetin、鸢尾种苷元 tectorigenin)的抗肿瘤细胞增殖

期刊

染料木素芒柄花黄素鸢尾种苷元抗肿瘤

政务APP传播问题研究

近年来,随着电子政务的蓬勃发展,政务APP逐渐成为政府服务的重要手段,但在政务APP的推广过程中,也出现了一些问题。本文通过内容分析的方法,选择了直辖市上海、省会城市成都、特区城市深圳的政务APP进行调查,既看到了三个具有代表性的城市在政务APP建设方面的优长,也找出了政务APP的不足。针对这些问题提出了相应的解决办法,主要观点是:政务APP应向一站式方向发展,以市民实用性为主导,以用户为中心,推

学位

政务APP用户粘性服务型政府

基于小波分析的声纹识别关键技术研究

与本文相关的学术论文