声纹识别鲁棒性技术及应用研究

被引量 : 6次 | 上传用户:kdkd03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声纹识别技术通过对说话者语音和数据库中登记的声纹作比较,对用户进行身份校验和鉴别,从而确定该说话人是否为本人或是否为集群中的哪个人。声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形和虹膜)相媲美,且只需电话或麦克风即可,数据采集极为方便,造价低廉,是最为经济、可靠、简便和安全的身份识别方式,目前在市场上有了很大的发展前景。但背景噪声环境下识别率低以及实时性差等问题制约着其走向实际应用,提高系统鲁棒性和实时性是声纹识别技术广泛应用的关键所在。声纹识别系统主要由语音信号预处理及端点检测,特征参数提取,声纹模型的训练及匹配识别等几部分组成,论文以提高系统的鲁棒性和实时性为目的,分别对这几部分的实现技术或算法进行深入研究,并通过开发设计的两个应用系统对所提算法进行验证,实验结果证明所提出的算法能有效提高系统的鲁棒性和实时性。论文共分六章。第一章概述声纹识别系统各个组成部分实现技术或算法的研究现状。从第二章开始,主要研究内容从五个部分展开,每一部分作为一章,其中二章、三章、四章主要研究系统鲁棒性的提高,五章研究系统实时性的提高,六章给出了作者开发的两个应用系统,将上述研究的技术应用其中,验证其对系统鲁棒性和实时性提高的有效性。第二章研究了带噪语音的预处理技术及端点检测算法,鉴于语音和噪声在语谱图上表现出的直观差异,论文采用语谱图端点检测方法。语谱图端点检测的技术难点在于如何用数学量将语谱图上的直观差异表述出来,根据自相关系数对图像纹理特性的描述能力,论文选用自相关函数描述这一差异,提出列自相关语谱图检测法。通过语谱图自相关函数的分布,找到区分语音和噪声的分界点,作为带噪语音端点检测的阈值。由于论文采用的是宽带语谱图,频率分辨率差,所以经过列自相关语谱图检测之后,语音列中仍然残留噪声,为了在不同频段进一步去噪,论文结合经验模态分解EMD的多分辨性,将带噪语音先进行多分辨分析,分解为不同的频率尺度之后再进行列自相关语谱图分析,实验证明带噪语音的降噪效果比较理想。第三章研究了说话人语音特征参数的提取。最理想的声纹识别语音特征参数是只反映说话人特征,不反映语义信息,而且数据总量小。实验表明要区分说话人身份信息,选择的参数既要包括声门特征,也要包括声道特征。因此论文将声道特征和声门特征结合,从而使说话人之间具有良好的区分性。对常用的说话人声道特征和声门特征进行分析对比,选取美尔倒谱系数MFCC表征声道特征,选取基音周期表征声门特征,并将两个特征参数结合,结合的方式为MFCC三角滤波器组所包含的Mel滤波器的个数以及组内各滤波器的中心频率由基音周期动态决定,称之为基于基因周期的MFCC特征参数。为了进一步提升声纹识别系统的识别率,通过引入Delta特征获取语音各帧之间的时变要素,在基于基音周期的MFCC特征参数的基础上,扩展Delta特征。扩展的特征参数的表现力增强了,但随之而来的是维数增加导致后续计算复杂度增加,论文提出一种分块合并映射降维处理算法。实验证明了所提取的特征参数及处理方法有助于系统鲁棒性提高。第四章研究了声纹识别模型。针对文本相关的声纹识别系统,主要研究了隐马尔可夫(HMM)模型,包括实现过程中问题的解决以及其鲁棒性的分析研究。文本无关的声纹识别模型系统主要研究了高斯混合(GMM)模型,分别从训练阶段和识别阶段对GMM模型进行改进。训练阶段提出一种基于邻近规则的k-means算法获取GMM初值,克服了传统方法因过分关注少数指标而造成系统整体性能不佳的缺点,通过简化最大期望算法(EM)推导过程,提高系统的训练速度和识别率。识别阶段,为了避免坏帧对判决结果的影响,提出基于熵值的帧匹配权重法,提高系统的鲁棒性。第五章研究了提高声纹识别系统效率的方法。从模型聚类的思想出发,提出基于模型生长聚类的GMM模型快速识别法和基于特征参数统计分组的HMM快速识别法。模型生长聚类算法的聚类策略是由起初的一个类生长出多个类,实现对说话人模型的聚类,核心算法是基于亲密度概念的分组策略、基于近似熵的相似性准则和类GMM的产生;对于利用HMM模型实现的声纹识别系统,针对HMM模型与GMM模型结构的不同,采用将特征参数序列进行聚类分组的策略,将聚在同一组的语音特征参数训练得到的HMM模型归为一组,达到了将模型库进行分组的目的,巧妙地避开了由于HMM模型结构所带来的直接将模型进行聚类分组的难度,核心算法为基于邻近规则的K-means算法、二次平滑分组算法、基于DTW的相似性准则和基于特征参数的类选择。第六章给出了两个声纹识别技术应用系统:基于HMM的移动终端声纹签到系统和基于GMM的手机声纹锁系统。所用为上述章节所研究的提高鲁棒性和实时性的技术和算法,介绍系统的开发设计过程,分别对两个应用系统环境适应鲁棒性和实时性进行了实验,结果验证了所研究的技术和算法的有效性。
其他文献
喀斯特地区的地下水环境相对脆弱,实际工作中通过详细的水文地质调查合理地选择建设项目位置是促进该地区经济和环境协调发展的关键问题。本文以贵州中部地区某燃煤电厂灰场
<正>人类对森林和湿地的过度开发利用,加剧了土地沙化、水土流失、湿地减少、物种灭绝等生态问题,严重危及人类自身生存与发展。促进绿色增长成为当前经济发展的迫切要求,成
在评述国内外城市交通系统与城市空间格局互动影响关系研究的基础上,以广州为案例,利用有关政府部门资料、统计资料和实地调查资料,系统全面地研究了城市交通系统与城市空间
纵观众多的少数民族题材纪录片,特别是在电视、网站等广泛传播的纪录片来看,内容、形式同质化较为严重,缺乏创作的新意。同时,此类纪录片的真实性为人诟病,大量的搬演摆拍严
《中华人民共和国城乡规划法》颁布实施以来,地方各级政府及相关部门在加快城乡建设、改善人居环境、节约利用资源、保护公共利益和个人合法权益等方面发挥了积极作用,取得了
砂石料是公路项目的核心建筑材料,如何合理控制砂石料的供应量,保证质量和价格合理稳定,是影响工程进度和项目成本的关键因素。文章结合科吉高速公路项目砂石料场具体案例,就
<正> 《国际社会经济学杂志》编辑巴里·佩特曼,在其主编的《社会经济学:概念与展望》一书中认为,社会经济学是一种边缘学科,它具有一个适合于一组有关学科的共同公理。这不
将1989-1991年采集的宁夏枸杞根腐病标样进行分离、接种后证明,致病菌有:前类镰刀菌[Fusariumsolani(Mart.)Sacc.],尖孢镰刀菌[F.oxysporumschl.],同色镰刀菌(F.concolorReinking),串珠镰刀菌(F.moniliformesheldon)。其中后三种为国内首次报道,并对致病力最强的尖孢镰刀菌作了培养特性
<正>据新加坡南洋理工大学教育学院官网2019年6月11日消息,虚拟现实和增强现实技术被运用到混合式音乐学习中。在这种新式的学习过程中,辅导不是由人在线完成,而是通过独立的