说话人识别中缺失特征的自动检测研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:psyche_runner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本无关说话人识别在实验室条件下性能良好,但是在实际情况中,噪声的存在会导致训练和测试环境的不匹配,从而引起系统性能下降。缺失特征方法是将语音中受噪声严重污染的频段标记出来,通过去除这些区域,仅利用剩下的可靠特征进行识别,以此来提高说话人识别系统在噪声环境下的鲁棒性。缺失特征方法在文本无关说话人识别中,第一步是将受噪声严重污染的频段标记出来,这一步称为缺失特征检测。准确的缺失特征检测对于后续的缺失特征重建,以至识别都起了关键的作用。大多数缺失特征检测方法采用局部SNR准则,依赖于对噪声的直接估计,噪声估计的不准确会导致识别率下降,尤其是在非平稳噪声环境下,噪声估计更加困难。如果不需要对噪声进行假设,而只考虑带噪语音本身的特征,就可以减少噪声估计的影响。本文研究的主要内容就是在加性噪声环境下,文本无关说话识别中,缺失特征的自动检测方法。为了实现缺失特征的自动检测,我们需要提取一些能够反映语音受噪声污染程度的语音特征。从这些特征所反映的信息就可以直接得到语音频谱的可靠性。文中主要介绍了四种语音特征,从理论和实验的角度分别得到了验证。实验表明,这些语音特征在不同噪声环境下以及不同信噪比的情况下,在时-频区域的变化规律与语音实际得到的SNR之间存在一定的关系。说明了这些语音特征在缺失特征检测中具有一定的使用前景。利用提取的语音特征,将缺失特征检测的问题转化为一个二分类问题,用这些语音特征训练分类器,直接判断语音在每个时-频区域的可靠性,也就实现了利用语音本身特征进行缺失特征自动检测的目的。本文采用的是神经网络分类器,通过神经网络的训练,将四个语音特征所显示的语音谱的可靠性综合到一个分类器中,也就是利用四个语音特征同时训练分类器,以避免单一语音特征在某些频段不能很好的反映语音受噪声污染的程度。对受不同信噪比的平稳F16噪声,非平稳factory噪声和babble噪声污染的带噪语音进行了实验,将神经网络得到的缺失特征检测结果与基于聚类的缺失特征重建方法相结合,得到说话人识别系统的识别率。实验结果表明,在相同的实验条件下,分别与理想缺失特征检测和基于谱减的缺失特征检测相比,从检测结果的准确性方面,最终的识别率角度进行分析,此方法均优于基于谱减的缺失特征检测,并且接近于理想缺失特征检测的结果。最后,讨论了缺失特征自动检测方法的扩展性问题,包括用两种噪声训练同一个分类器来提高说明此方法的噪声鲁棒性;结构GMM的重建方法来进一步说明此处自动检测方法的优越性。
其他文献
GaAs/AlGaAs量子阱红外探测器(QWIPs)是近二十年来迅速发展起来的一种新型红外探测器,它利用GaAs和AlxGa1-xAs形成的势阱的子带间吸收机制,由于能带结构可精确设计从而能获得
学位
学位
学位
掺Yb3+双包层光纤激光器以其成本低、阈值低、窄带宽、易于制作、效率高、可协调、紧凑小巧和高性价比等优点,近年来备受关注。在通信、传感、工业、军事、光信息处理、医疗
流感是由流感病毒引起的急性呼吸道传染病,起病急,传染性强,极易在人与人之间传播.除使用流感疫苗或抗病毒药物外,非药物干预措施是针对流感最容易实现的防控措施,能够用来减
在河南嵩山少林寺最后一进大殿——千佛殿的三面山墙上,绘有五百罗汉大型壁画。壁画高7.5米,长42米,面积约320平方米。壁画围绕殿内所奉毗卢佛展开,画中五百罗汉千姿百态、神
学位
时域耦合模理论是研制很多光子晶体功能器件(如超快双稳开关,全光二极管等)的重要理论基础。随着研究的不断深入,人们发现标准时域耦合模理论已不能对一些实验现象和器件设计作出
神经系统由数亿神经元构成网络,负责信号传递,从而参与学习,记忆,运动等生理活动。在脊椎动物发育早期,神经系统发生大爆发式生长,也是发育的关键时期。为了使神经系统功能更成熟化
学位