基于因子分析的鲁棒性说话人识别技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:xiangcool2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动说话人识别技术,简单来说就是根据语音来自动对说话人进行区分,从而进行说话人身份鉴别与认证的技术。该技术在国家安全方面一直有着重要的意义。另外,随着通信以及互联网技术的发展,说话人识别技术在多媒体信息处理及检索方面也开始被应用起来。   当前在实验室环境中,由于语音的传输信道比较单一、信噪比较高,在这种情况下,说话人识别系统取得了良好的识别性能。但是在实际应用中,语音环境的复杂多变,例如环境噪声以及信道调制的干扰等,使系统的识别性能急剧下降,这对说话人识别系统的鲁棒性提出了很大的挑战。因此,如何有效的减弱或上除环境噪声以及信道干扰等对系统的负面影响,从而提高说话人识别系统的鲁棒性,成为了该领域研究的热点及重点之一。   实际应用中的说话人识别的鲁棒性问题,本质上可以归结为两个方面:一方面是由于环境噪声对训练和测试语音质量的影响,另一方面是由于目标说话人的训练环境和测试语音环境的不匹配,主要归结为信道的不匹配。目前,常用的提高说话人识别系统鲁棒性的算法可以粗略的归结为三个方面:特征域、模型域以及得分域。特征域的算法主要着眼于如何提取更加鲁棒的特征参数,从而使特征参数受环境变化的影响尽可能小。模型域的算法更多地是针对信道问题的补偿,使得目标说话人的模型与测试语音的信道相匹配。得分域算法主要是通过各种得分规整算法来消除因信道和环境噪声等带来的得分差异。这些算法在目前的说话人识别系统中发挥了重要的作用,能够在一定程度上对信道的不匹配问题进行补偿,但是在语音的信噪比较低的时候,这些算法的作用往往比较有限。   本文致力于说话人识别中的鲁棒性技术的应用及探索。首先,深入研究了说话人识别中的各种说话人建模算法、信道补偿算法以及得分判决模块,对这些关键技术的原理进行了分析并提出了相应的改进方法;另外,着眼于如何提高训练和测试语音质量方面的研究,从而在语音数据层面抑制环境噪声和信道调制的负面影响,尽可能提高说话人识别系统的识别性能。主要研究工作及创新点包括:   1.研究并实现了目前说话人识别中的关键技术-联合因子分析算法。为了克服原有算法中说话人空间和信道空间估计不足的问题,在说话人空间和信道空间估计方面采用了分开串行估计的方法。   在说话人因子和信道因子估计时,采用Gauss-Seidel方法来代替原有的联合估计的方法。联合估计的方法将说话人空间和信道空间拼接成一个大的矩阵,然后联合估计说话人因子和信道因子,由于矩阵的维数较高,因此在训练目标说话人模型的时候需要的时间较长,而Gauss-Seidel方法则以串行估计的方式,分别在说话人空间和信道空间估计其相应的因子,从而大大降低了模型训练的时间复杂度。   在得分判决模块,提出了一种基于识别对(trial)信息的鉴别性判决函数,该鉴别性判决函数通过对代表“True”和“False”两种识别对信息的超向量所对应的贡献因子向量进行重新估计,来进一步提高两种识别对的分类性能。   2.研究并实现了总变化因子分析技术。该技术在对说话人进行建模的时候,不区分语音中的说话人信息和信道信息,而是将整个语音空间(总变化空间)进行建模,然后在这个空间上对训练和测试语音计算其相应的总变化因子(Ivector),来作为SVM建模和分类的特征。为了降低信道对识别的影响,我们使用LDA降维技术以及类内协方差规整(WCCN)技术对Ivector进行信道补偿。   稀疏表示算法是一种具有很强鉴别性的分类方法。在说话人识别中,Ivector的维数通常较低,这非常适合于稀疏表示(Sparse Representation)算法中样本维数小于训练样本数的要求。因此,我们将稀疏表示算法引入到说话人识别中,并对其求解时的约束条件、得分计算方法以及得分规整方法进行了一定的改进,来提高算法的鲁棒性,并降低算法的时间复杂度。基于稀疏表示的Ivector系统获得了与基于SVM的Ivector系统相近的性能,且两者进行系统融合时,能够进一步提升Ivector系统的性能。   3.提出了一种基于语音谐波结构的鲁棒性说话人识别方法。该方法使用语音的谐波结构信息对语音进行再合成,我们使用合成后的语音进行传统的倒谱特征参数提取,从而用于说话人建模及识别。我们提出的这个方法通过对语音谐波结构的重构,能够一定程度上降低环境噪声以及信道不匹配对说话人识别性能的影响。另外,实验证明基于谐波结构合成语音的系统和基于原始语音的识别系统具有一定的互补性,两种系统的融合能够进一步提升说话人识别系统的性能。
其他文献
刀具工装/机床件件展品丰富rn本届IMTS展会与其他国际展会有很大不同的地方是,刀具、工装信机床附件等展品非常丰富,所占的展区面积也很大.
自上世纪60年代网络在美国诞生以来,经历了数次发展与变化,由ARPAnet、NSFnet发展成为了互联网。中国于1994接入到INTERNET,CERNET(中国教育科研网)成为了中国第一个全国性计算
随着数字技术在小学教学当中的应用和发展,借助STEM教育来展开小学教学工作已经成为当前教学的主流,它不仅弥补了传统授课方式当中的不足,同时也打破了小学教学的局限性.为此
期刊
一堂有效率的语文课应该达到的要求基本便是学生都能真正进入教学情境当中,对教材中需要的课文真正读进去,但是这个“读进去”却又不能是我们教学要达到的最终目的,因为语文
期刊
试样经湿法消解后,采用ICP-AES同时测定大豆粉中钙、铁和锌。本方法所测结果顺利通过了CNALT0186大豆中营养成分检测能力验证比对实验。 After wet digestion of samples, s
无线通信技术经历近三十年日新月异的发展,深刻的改变了人们的生活和工作方式。目前3G网络覆盖日趋完善,但随着用户业务对传输速率需求不断提高,4G已成为未来发展的必然趋势
新课改背景下的小学英语教学中,需要坚持以生为本的教学理念,要注重每位学生的发展.而实施分层教学法,就能够充分尊重每位学生的学习主体性,为学生提供符合他们学习需求的教
期刊
随着人类对空间探测活动的日益频繁,空间图像传输成为一个重要的研究课题之一。空间通信和深空通信具有传播距离远,计算资源和功率有限,存在随时差错、突发差错和包丢失等特点,给
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
目的 探讨老年非活动性乙肝病毒携带者发生营养风险的影响因素。方法 收集老年非活动性乙肝病毒携带者97例。采用单因素分析比较性别、婚姻状况、便秘、糖尿病、低蛋白饮食、贫血、功能性消化不良、年龄、抑郁评分的差异。采用logistic回归分析老年非活动性乙肝病毒携带者发生营养风险的影响因素。结果 本组97例患者54例存在营养风险(54/97)。单因素分析显示:营养风险组与营养正常组比较,低蛋白饮食(x2