说话人识别中训练和测试时编码失配影响的补偿

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bigfishing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与文本无关的说话人识别的研究,由于其实用性,成为当今语音识别领域中的热门课题,经过几十年的发展,已经取得了巨大进展。尽管在实验室环境下,说话人识别系统已经取得了比较令人满意的效果,但在实际使用过程中,由于受各种外界因素的影响,使得系统性能明显下降。其中影响性能的主要原因之一是训练和测试语音信号的编码不匹配问题。尤其是近年来,由于数字语音通信系统的广泛应用,说话人识别系统在实际环境中所能获得的训练语音和测试语音的编码往往不同,这时的说话人识别就面临着由于训练和测试语音编码不同而产生的不匹配问题,这将对系统的性能产生很大的影响。解决编码不匹配问题是提高说话人识别性能,增强系统实用化程度的关键之一。本文主要研究有效克服编码失配对说话人识别系统性能影响的补偿方法,以提高编码失配下的系统性能,主要从模型域和得分域进行补偿。在基于混合高斯模型-通用背景模型的说话人识别系统上,对码速率在64kb/s~5.15kb/s之间的语音编码进行实验,分析编码算法、编码速率及编码失配对说话人识别系统性能的影响;针对编码失配使说话人识别系统性能下降的问题,采用说话人模型合成和帧似然概率变换两种方法进行补偿。说话人模型合成方法是一种基于预测的模型补偿方法,它通过特定编码的通用背景模型,学习不同编码模型的参数变换关系,调整训练语音模型参数来匹配测试语音编码;在应用了模型合成方法的系统中,引入帧似然概率变换方法,通过帧似然概率变换,增大测试语音在目标模型与非目标模型上的得分差距,从而提高系统识别率。实验表明,说话人模型合成方法能够有效克服编码失配对识别系统性能的影响,与帧似然概率变换方法的联合使用,更进一步提高了编码失配下系统的识别率。
其他文献
万维网改变了人们彼此交流的方式,然而绝大部分现有的网络内容只适合于人工处理,虽然一些软件工具在一定程度上改善了人类的交流方式,但是在某些方面还有些欠缺,例如:搜索结果
智能交通系统(Intelligent Transportation System,ITS)是以缓和道路堵塞和减少交通事故和交通污染,提高交通利用者的方便和舒适为目的,利用交通信息系统、通讯网络、定位系统
在信息飞速增长的时代,分布式数据库成为大型企业存储信息的首选方式,方便快速的查询关系数据成为一个科研难题。随着网络技术和搜索技术的兴起,关键字查询与传统的SQL查询相
普适计算可以随时随地的提供计算服务,当具有计算、感知能力的设备节点无处不在时,节点如何自动获得其它节点所提供服务并实现各节点间的相互协作是亟待解决的关键问题。信息
随着互联网的不断发展,智能手机、平板电脑等智能终端在人类生活中的普及以及移动网络带宽的不断提高,使得微信、微博等社交媒体已经渐渐成为了人类生活中不可或缺的部分。人们
随着结构化数据在互联网应用中的大量出现,对复杂数据进行图建模在近年来越来越流行。图索引问题在图数据库应用中至关重要。本文主要研究了图数据库上的图索引问题。本文提
癫痫是影响人类健康的一种神经系统疾病,给患者和社会带来严重的影响。脑电是常用的一种癫痫诊断技术,但受到技术限制,癫痫脑电目前还主要依靠医生经验人工判断,尚未实现自动诊断
随着计算机技术的高速发展,计算机系统被广泛的应用于航空航天、军事国防、医疗卫生等高可靠性领域,人们对计算机系统在软件和硬件方面的可靠性要求也大大提高。因此,计算机
寻求新型有效的压缩方法始终是数字媒体领域的关键问题之一。基于内容的压缩代表着新一代的压缩方法,也是本课题所提出的冗余内容压缩方法的来源。传统的数据压缩算法中,通常没
网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫发生频率增高、潜伏性变强、覆盖面更广。不断给网络造成的巨大危害表明,传统的防病毒技术已不能满足网络蠕虫防治的