分数阶傅里叶变换在耳语音说话人识别研究中的应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:sukey2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
耳语音作为正常音的补充和替代,是人们日常生活中广泛使用的语言交流方式之一。随着社会经济的发展,耳语音在手机通信、金融服务行业、公安司法等领域中发挥着越来越重要的作用。在耳语音说话人识别的实际应用中,大多数参数都是建立在正常语音特征参数的修正上,其稳健性较差,且易遭受信道的干扰,因此研究一种有效的耳语音特征参数用于说话人识别系统是一个亟待解决的问题。另外,考虑到实际情况下耳语音数据的采集是相当困难的,那么在无法获得充分耳语音训练数据的前提下,如何提高耳语音说话人识别系统的性能也是值得思考的。针对以上问题,本文做了以下几个方面的工作。一、考虑到语音信号是时变的非平稳信号,因此本文引入了分数阶傅里叶变换(FRFT)作为语音的分析工具,它不仅适于处理非平稳信号,而且多一个参数(阶数),在语音信号处理中取得了很好的效果。二、根据语音产生过程中的非声学现象,介绍了从共振峰调制角度来描述语音产生的调幅-调频(AM-FM)模型,并详细叙述了基于此模型的Teager能量算子、能量分离算法和多带解调分析理论。三、利用分数阶傅里叶变换提取耳语音特征参数的关键问题是如何确定最优阶数p来达到处理的最佳效果。本文提出了一种基于瞬时频率分段线性拟合的自适应分数阶傅里叶变换倒谱系数(A-FRCC)。将这个新参数应用于GMM的耳语音说话人识别实验,并和基于步进搜索的分数阶傅里叶变换倒谱参数(S-FRCC、瞬时频率估计(IFE)参数进行比较,结果说明新的参数可以观测到更加精细的语音结构,刻画出更具说话人个性的特征,有效地提高了识别率和算法鲁棒性。四、针对耳语音数据不充分的情况,引入了一个与说话人和信道均无关的通用背景模型(UBM),在此基础上训练形成GMM-UBM说话人模型。通过实验比较,在较少的训练数据情况下同样可以提高识别率,并且新特征A-FRCC的效果最好。
其他文献
学位
随着当今地铁多媒体乘客信息系统(PIS)的发展和完善,对PIS的子系统地铁车站广播系统的信息发布能力、语音质量及清晰度都提出了更高的要求。目前国内大部分地铁车站广播仍采用
近年来,人脸表情识别由于在人机交互,电脑游戏,视频会议等方面有着巨大的应用前景而逐渐成为研究的热点。随着科学技术的飞速发展,特别是笑脸检测相机的商业化使用,表情中重
随着移动通信网络的发展以及用户业务需求的多样化,用户希望通过移动互联网体验高品质业务的需求日益明显。为了实现在现有的蜂窝网络中提供低成本的多媒体业务,尤其是手机电视
It is widely recognized that caching is an indispensable technology for thenext generation mobile content delivery networks (CDNs).In particular, caching atmobi
随着移动通信技术的日渐成熟,数据传输速度的不断提高,尤其是3G技术的逐渐普及,数据流量呈日益剧增趋势。而数据业务相关预测的空白,使通信运营商对网络建设及调整缺乏有效指
掌纹特征识别是典型的生物模式识别技术之一,手掌纹理具有独特性、稳定性以及可靠性,且掌纹图像的采集区域大、对采集设备要求较低、采集方式易被人们接受,因此,研究掌纹识别
目前TD-LTE系统已经形成了比较完备的国际化产业链,其设备也接近FDD-LTE商用初期的同等水平,其单模芯片终端可以长时间稳定地在网工作。总的来说,TD-LTE的技术、产品、组网性能
无线传感器网络是一种大规模、自组织、多跳、无基础设施支持的无线网络,由大量传感器节点组成,这些节点被随意散布在工作区域内采集数据,观察者通过无线传感器网络得到传感器节
认知无线电是一种提高授权频段频谱利用率的新兴技术。频谱检测是其关键任务之一。本文分析主用户的行为特性,并研究基于该特性的频谱检测技术。本文首先介绍了认知无线电的