论文部分内容阅读
耳语音作为正常音的补充和替代,是人们日常生活中广泛使用的语言交流方式之一。随着社会经济的发展,耳语音在手机通信、金融服务行业、公安司法等领域中发挥着越来越重要的作用。在耳语音说话人识别的实际应用中,大多数参数都是建立在正常语音特征参数的修正上,其稳健性较差,且易遭受信道的干扰,因此研究一种有效的耳语音特征参数用于说话人识别系统是一个亟待解决的问题。另外,考虑到实际情况下耳语音数据的采集是相当困难的,那么在无法获得充分耳语音训练数据的前提下,如何提高耳语音说话人识别系统的性能也是值得思考的。针对以上问题,本文做了以下几个方面的工作。一、考虑到语音信号是时变的非平稳信号,因此本文引入了分数阶傅里叶变换(FRFT)作为语音的分析工具,它不仅适于处理非平稳信号,而且多一个参数(阶数),在语音信号处理中取得了很好的效果。二、根据语音产生过程中的非声学现象,介绍了从共振峰调制角度来描述语音产生的调幅-调频(AM-FM)模型,并详细叙述了基于此模型的Teager能量算子、能量分离算法和多带解调分析理论。三、利用分数阶傅里叶变换提取耳语音特征参数的关键问题是如何确定最优阶数p来达到处理的最佳效果。本文提出了一种基于瞬时频率分段线性拟合的自适应分数阶傅里叶变换倒谱系数(A-FRCC)。将这个新参数应用于GMM的耳语音说话人识别实验,并和基于步进搜索的分数阶傅里叶变换倒谱参数(S-FRCC、瞬时频率估计(IFE)参数进行比较,结果说明新的参数可以观测到更加精细的语音结构,刻画出更具说话人个性的特征,有效地提高了识别率和算法鲁棒性。四、针对耳语音数据不充分的情况,引入了一个与说话人和信道均无关的通用背景模型(UBM),在此基础上训练形成GMM-UBM说话人模型。通过实验比较,在较少的训练数据情况下同样可以提高识别率,并且新特征A-FRCC的效果最好。